Apprentissage supervisé et théorie de la décision

Transcription

Apprentissage supervisé et théorie de la décision
Apprentissage supervisé et théorie de la décision
Chapitre 1
Marie Chavent
à partir des cours d’Adrien Todeschini et Francois Caron
Master MIMSE - Université de Bordeaux
2015-2016
Chapitre 1
Apprentissage supervisé
2015-2016
1 / 36
Ressources
Livres de référence
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani (2013).
An Introduction to Statistical Learning
Springer. http://www-bcf.usc.edu/˜gareth/ISL/
Larry Wasserman (2004).
All of statistics - A concise course in Statistical Inference
Springer Texts in Statistics.
http://www.stat.cmu.edu/˜larry/all-of-statistics/
Trevor Hastie, Robert Tibshirani et Jerome Friedman (2009).
The Elements of Statistical Learning
Springer Series in Statistics.
http://statweb.stanford.edu/˜tibs/ElemStatLearn/
Christopher M. Bishop (2009).
Pattern recognition and machine learning.
Springer. http://research.microsoft.com/en-us/um/people/cmbishop/prml/
Chapitre 1
Apprentissage supervisé
2015-2016
2 / 36
Ressources
Cours en ligne
I
I
Machine Learning, Andrew Ng (Stanford University) :
https://www.coursera.org/course/ml
WikiStat : http://wikistat.fr/
Logiciels
I
I
R + RStudio : http://www.rstudio.com/
Python + scikit-learn : http://scikit-learn.org/
Technologies big data
I
I
MapReduce avec RHadoop
Spark+MLlib : http://spark.apache.org/mllib/
Jeux de données
I
UC Irvine Machine Learning Repository :
http://archive.ics.uci.edu/ml/
Challenges industriels
I
I
Kaggle : https://www.kaggle.com/
Datascience.net : https://datascience.net/
Chapitre 1
Apprentissage supervisé
2015-2016
3 / 36
Introduction
Exemples
L’apprentissage statistique joue un rôle important dans de nombreux
problèmes
I
Prédire si un patient, souffrant d’une attaque cardiaque, aura à
nouveau une attaque cardiaque, en se basant sur des mesures cliniques
et démographiques sur ce patient
Chapitre 1
Apprentissage supervisé
2015-2016
4 / 36
Introduction
Exemples
L’apprentissage statistique joue un rôle important dans de nombreux
problèmes
I
I
Prédire si un patient, souffrant d’une attaque cardiaque, aura à
nouveau une attaque cardiaque, en se basant sur des mesures cliniques
et démographiques sur ce patient
Prédire la consommation en électricité d’un client à partir de données
sur l’habitation et les habitudes de consommation
Chapitre 1
Apprentissage supervisé
2015-2016
4 / 36
Introduction
Exemples
L’apprentissage statistique joue un rôle important dans de nombreux
problèmes
I
I
I
Prédire si un patient, souffrant d’une attaque cardiaque, aura à
nouveau une attaque cardiaque, en se basant sur des mesures cliniques
et démographiques sur ce patient
Prédire la consommation en électricité d’un client à partir de données
sur l’habitation et les habitudes de consommation
Identifier de façon automatique les chiffres du code postal sur une
enveloppe
Chapitre 1
Apprentissage supervisé
2015-2016
4 / 36
Introduction
Exemples
L’apprentissage statistique joue un rôle important dans de nombreux
problèmes
I
I
I
I
Prédire si un patient, souffrant d’une attaque cardiaque, aura à
nouveau une attaque cardiaque, en se basant sur des mesures cliniques
et démographiques sur ce patient
Prédire la consommation en électricité d’un client à partir de données
sur l’habitation et les habitudes de consommation
Identifier de façon automatique les chiffres du code postal sur une
enveloppe
Identifier des groupes de sujets similaires dans un ensemble d’articles
sur le web
Chapitre 1
Apprentissage supervisé
2015-2016
4 / 36
Introduction
Exemples
Variable de sortie
Chapitre 1
Apprentissage supervisé
2015-2016
5 / 36
Introduction
Exemples
Variable de sortie
I
quantitative (e.g. consommation d’électricité)
Chapitre 1
Apprentissage supervisé
2015-2016
5 / 36
Introduction
Exemples
Variable de sortie
I
I
quantitative (e.g. consommation d’électricité)
qualitative (attaque cardiaque: oui/non)
Chapitre 1
Apprentissage supervisé
2015-2016
5 / 36
Introduction
Exemples
Variable de sortie
I
I
quantitative (e.g. consommation d’électricité)
qualitative (attaque cardiaque: oui/non)
Objectif : Prédire la valeur de cette variable de sortie en fonction d’un
ensemble de caractéristiques (mesures cliniques du patient, données
sur l’habitation, etc.)
Chapitre 1
Apprentissage supervisé
2015-2016
5 / 36
Introduction
Exemples
Variable de sortie
I
I
quantitative (e.g. consommation d’électricité)
qualitative (attaque cardiaque: oui/non)
Objectif : Prédire la valeur de cette variable de sortie en fonction d’un
ensemble de caractéristiques (mesures cliniques du patient, données
sur l’habitation, etc.)
Ensemble d’apprentissage: couples de valeurs entrées/sorties
permettant de créer un modèle de prédiction, utilisé pour prédire de
nouveaux cas
Chapitre 1
Apprentissage supervisé
2015-2016
5 / 36
Exemples
Reconnaissance de caractères manuscripts
Objectif : Prédire la classe de chaque image (0,. . . ,9) à partir d’une
matrice de 16 × 16 pixel, chaque pixel ayant une intensité de 0 à 255
Chapitre 1
Apprentissage supervisé
2015-2016
6 / 36
Exemples
Reconnaissance de caractères manuscripts
Objectif : Prédire la classe de chaque image (0,. . . ,9) à partir d’une
matrice de 16 × 16 pixel, chaque pixel ayant une intensité de 0 à 255
Taux d’erreur doit être faible afin d’éviter les mauvaises attributions
du courrier
Chapitre 1
Apprentissage supervisé
2015-2016
6 / 36
Exemples
Reconnaissance de caractères manuscripts
Objectif : Prédire la classe de chaque image (0,. . . ,9) à partir d’une
matrice de 16 × 16 pixel, chaque pixel ayant une intensité de 0 à 255
Taux d’erreur doit être faible afin d’éviter les mauvaises attributions
du courrier
[Classification supervisée]
Chapitre 1
Apprentissage supervisé
2015-2016
6 / 36
Exemples
Reconnaissance automatique de spams
Spam
No Spam
WINNING NOTIFICATION
We are pleased to inform you of the result
of the Lottery Winners International
programs held on the 30th january 2005.
[...] You have been approved for a lump sum
pay out of 175,000.00 euros.
CONGRATULATIONS!!!
Dear George,
Could you please send me the report #1248 on
the project advancement?
Thanks in advance.
Regards,
Cathia
Base de données de courriel identifiés ou non comme spam
Chapitre 1
Apprentissage supervisé
2015-2016
7 / 36
Exemples
Reconnaissance automatique de spams
Spam
No Spam
WINNING NOTIFICATION
We are pleased to inform you of the result
of the Lottery Winners International
programs held on the 30th january 2005.
[...] You have been approved for a lump sum
pay out of 175,000.00 euros.
CONGRATULATIONS!!!
Dear George,
Could you please send me the report #1248 on
the project advancement?
Thanks in advance.
Regards,
Cathia
Base de données de courriel identifiés ou non comme spam
Objectif : Définir un modèle de prédiction permettant, à l’arrivée d’un
courriel de prédire si celui-ci est un spam ou non
Chapitre 1
Apprentissage supervisé
2015-2016
7 / 36
Exemples
Reconnaissance automatique de spams
Spam
No Spam
WINNING NOTIFICATION
We are pleased to inform you of the result
of the Lottery Winners International
programs held on the 30th january 2005.
[...] You have been approved for a lump sum
pay out of 175,000.00 euros.
CONGRATULATIONS!!!
Dear George,
Could you please send me the report #1248 on
the project advancement?
Thanks in advance.
Regards,
Cathia
Base de données de courriel identifiés ou non comme spam
Objectif : Définir un modèle de prédiction permettant, à l’arrivée d’un
courriel de prédire si celui-ci est un spam ou non
Taux d’erreur doit être faible afin d’éviter de supprimer des messages
importants ou d’inonder la boite au lettre de courriers inutiles
Chapitre 1
Apprentissage supervisé
2015-2016
7 / 36
Exemples
Reconnaissance automatique de spams
Spam
No Spam
WINNING NOTIFICATION
We are pleased to inform you of the result
of the Lottery Winners International
programs held on the 30th january 2005.
[...] You have been approved for a lump sum
pay out of 175,000.00 euros.
CONGRATULATIONS!!!
Dear George,
Could you please send me the report #1248 on
the project advancement?
Thanks in advance.
Regards,
Cathia
Base de données de courriel identifiés ou non comme spam
Objectif : Définir un modèle de prédiction permettant, à l’arrivée d’un
courriel de prédire si celui-ci est un spam ou non
Taux d’erreur doit être faible afin d’éviter de supprimer des messages
importants ou d’inonder la boite au lettre de courriers inutiles
[Classification supervisée]
Chapitre 1
Apprentissage supervisé
2015-2016
7 / 36
Exemples
Classification de signaux neuronaux
Brefs potentiels d’action enregistrés par une micro-électrode
Objectif : classer les signaux afin d’attribuer chaque potentiel à un
neurone particulier
Chapitre 1
Apprentissage supervisé
2015-2016
8 / 36
Exemples
Classification de signaux neuronaux
Brefs potentiels d’action enregistrés par une micro-électrode
Objectif : classer les signaux afin d’attribuer chaque potentiel à un
neurone particulier
Chapitre 1
Apprentissage supervisé
2015-2016
9 / 36
Exemples
Classification de signaux neuronaux
Brefs potentiels d’action enregistrés par une micro-électrode
Objectif : classer les signaux afin d’attribuer chaque potentiel à un
neurone particulier
Chapitre 1
Apprentissage supervisé
2015-2016
10 / 36
Exemples
Classification de signaux neuronaux
Brefs potentiels d’action enregistrés par une micro-électrode
Objectif : classer les signaux afin d’attribuer chaque potentiel à un
neurone particulier
[Classification non supervisée]
Chapitre 1
Apprentissage supervisé
2015-2016
10 / 36
Exemples
Classification de séquences d’expression de gènes
Puces à ADN : données d’expression de gène pour plusieurs gènes et
plusieurs conditions expérimentales
Classification de gènes avec des séquences d’expression similaires
Chapitre 1
Apprentissage supervisé
2015-2016
11 / 36
Exemples
Classification de séquences d’expression de gènes
Puces à ADN : données d’expression de gène pour plusieurs gènes et
plusieurs conditions expérimentales
Classification de gènes avec des séquences d’expression similaires
Chapitre 1
Apprentissage supervisé
2015-2016
12 / 36
Exemples
Classification de séquences d’expression de gènes
Puces à ADN : données d’expression de gène pour plusieurs gènes et
plusieurs conditions expérimentales
Classification de gènes avec des séquences d’expression similaires
[Classification non supervisée]
Chapitre 1
Apprentissage supervisé
2015-2016
12 / 36
Définitions
Régression vs classification
Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives
Chapitre 1
Apprentissage supervisé
2015-2016
13 / 36
Définitions
Régression vs classification
Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives
Variable de sortie Y : variable à expliquer ou de réponse
Chapitre 1
Apprentissage supervisé
2015-2016
13 / 36
Définitions
Régression vs classification
Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives
Variable de sortie Y : variable à expliquer ou de réponse
I
Y quantitative
Chapitre 1
Problème de régression
Apprentissage supervisé
2015-2016
13 / 36
Définitions
Régression vs classification
Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives
Variable de sortie Y : variable à expliquer ou de réponse
I
I
Y quantitative
Y qualitative
Chapitre 1
Problème de régression
Problème de classification
Apprentissage supervisé
2015-2016
13 / 36
Définitions
Régression vs classification
Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives
Variable de sortie Y : variable à expliquer ou de réponse
I
I
Y quantitative
Y qualitative
Problème de régression
Problème de classification
On s’intéressera principalement dans ce cours à des problèmes de
classification où Y est une variable qualitative à K modalités et on parle de
problème de discrimination en K classes.
Chapitre 1
Apprentissage supervisé
2015-2016
13 / 36
Définitions
Régression vs classification
Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives
Variable de sortie Y : variable à expliquer ou de réponse
I
I
Y quantitative
Y qualitative
Problème de régression
Problème de classification
On s’intéressera principalement dans ce cours à des problèmes de
classification où Y est une variable qualitative à K modalités et on parle de
problème de discrimination en K classes.
Vocabulaire : apprentissage = machine learning
Chapitre 1
Apprentissage supervisé
2015-2016
13 / 36
Définitions
Régression vs classification
Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives
Variable de sortie Y : variable à expliquer ou de réponse
I
I
Y quantitative
Y qualitative
Problème de régression
Problème de classification
On s’intéressera principalement dans ce cours à des problèmes de
classification où Y est une variable qualitative à K modalités et on parle de
problème de discrimination en K classes.
Vocabulaire : apprentissage = machine learning
I
Classification supervisée = discrimination
Chapitre 1
Apprentissage supervisé
2015-2016
13 / 36
Définitions
Régression vs classification
Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives
Variable de sortie Y : variable à expliquer ou de réponse
I
I
Y quantitative
Y qualitative
Problème de régression
Problème de classification
On s’intéressera principalement dans ce cours à des problèmes de
classification où Y est une variable qualitative à K modalités et on parle de
problème de discrimination en K classes.
Vocabulaire : apprentissage = machine learning
I
I
Classification supervisée = discrimination
Classification non supervisée = clustering
Chapitre 1
Apprentissage supervisé
2015-2016
13 / 36
Définitions
Classification
Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn )
Chapitre 1
Apprentissage supervisé
2015-2016
14 / 36
Définitions
Classification
Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn )
Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp
Chapitre 1
Apprentissage supervisé
2015-2016
14 / 36
Définitions
Classification
Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn )
Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp
Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K }
Chapitre 1
Apprentissage supervisé
2015-2016
14 / 36
Définitions
Classification
Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn )
Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp
Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K }
Définition
Une règle de classification est une fonction g : X → Y.
Chapitre 1
Apprentissage supervisé
2015-2016
14 / 36
Définitions
Classification
Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn )
Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp
Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K }
Définition
Une règle de classification est une fonction g : X → Y.
Ensemble d’apprentissage : ensemble de données permettant l’apprentissage
de la règle de classification g
Chapitre 1
Apprentissage supervisé
2015-2016
14 / 36
Définitions
Classification
Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn )
Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp
Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K }
Définition
Une règle de classification est une fonction g : X → Y.
Ensemble d’apprentissage : ensemble de données permettant l’apprentissage
de la règle de classification g
I
Classification supervisée : on dispose d’un ensemble de couples (Xi , Yi )
pour l’apprentissage de g.
Chapitre 1
Apprentissage supervisé
2015-2016
14 / 36
Définitions
Classification
Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn )
Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp
Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K }
Définition
Une règle de classification est une fonction g : X → Y.
Ensemble d’apprentissage : ensemble de données permettant l’apprentissage
de la règle de classification g
I
I
Classification supervisée : on dispose d’un ensemble de couples (Xi , Yi )
pour l’apprentissage de g.
Classification non supervisée : on ne dispose que de données (Xi ) non
classées
Chapitre 1
Apprentissage supervisé
2015-2016
14 / 36
Définitions
Classification supervisée
Objectif : A partir de l’ensemble d’apprentissage, définir une règle de
classification g permettant des prédictions précises sur de nouveau éléments
Chapitre 1
Apprentissage supervisé
2015-2016
15 / 36
Définitions
Classification supervisée
Objectif : A partir de l’ensemble d’apprentissage, définir une règle de
classification g permettant des prédictions précises sur de nouveau éléments
Erreur de prédiction est quantifiée par une fonction de coût L : Y × Y → R
Chapitre 1
Apprentissage supervisé
2015-2016
15 / 36
Définitions
Classification supervisée
Objectif : A partir de l’ensemble d’apprentissage, définir une règle de
classification g permettant des prédictions précises sur de nouveau éléments
Erreur de prédiction est quantifiée par une fonction de coût L : Y × Y → R
En classification on considère souvent la fonction de coût 0-1
L(i, j) = 0 si i = j
= 1 sinon
Chapitre 1
Apprentissage supervisé
2015-2016
15 / 36
Définitions
Classification supervisée
Objectif : A partir de l’ensemble d’apprentissage, définir une règle de
classification g permettant des prédictions précises sur de nouveau éléments
Erreur de prédiction est quantifiée par une fonction de coût L : Y × Y → R
En classification on considère souvent la fonction de coût 0-1
L(i, j) = 0 si i = j
= 1 sinon
Combien cela me coûte-t-il de faire des mauvaises prédictions?
Chapitre 1
Apprentissage supervisé
2015-2016
15 / 36
Définitions
Classification supervisée
Le coût moyen d’une règle de classification g est
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
Chapitre 1
Apprentissage supervisé
2015-2016
16 / 36
Définitions
Classification supervisée
Le coût moyen d’une règle de classification g est
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
Ce coût moyen est appelé risque moyen théorique
Chapitre 1
Apprentissage supervisé
2015-2016
16 / 36
Définitions
Classification supervisée
Le coût moyen d’une règle de classification g est
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
Ce coût moyen est appelé risque moyen théorique
Lorsque la fonction de coût 0-1 est utilisée, on parle de taux d’erreur
théorique et E (g) = P(g(X ) 6= Y )
Chapitre 1
Apprentissage supervisé
2015-2016
16 / 36
Définitions
Classification supervisée
Le coût moyen d’une règle de classification g est
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
Ce coût moyen est appelé risque moyen théorique
Lorsque la fonction de coût 0-1 est utilisée, on parle de taux d’erreur
théorique et E (g) = P(g(X ) 6= Y )
Le coût moyen empirique associé à l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est
n
X
bn (g) = 1
E
L(g(Xi ), Yi )
n i=1
Chapitre 1
Apprentissage supervisé
2015-2016
16 / 36
Définitions
Classification supervisée
Le coût moyen d’une règle de classification g est
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
Ce coût moyen est appelé risque moyen théorique
Lorsque la fonction de coût 0-1 est utilisée, on parle de taux d’erreur
théorique et E (g) = P(g(X ) 6= Y )
Le coût moyen empirique associé à l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est
n
X
bn (g) = 1
E
L(g(Xi ), Yi )
n i=1
On parle de risque moyen empirique
Chapitre 1
Apprentissage supervisé
2015-2016
16 / 36
Définitions
Classification supervisée
Le coût moyen d’une règle de classification g est
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
Ce coût moyen est appelé risque moyen théorique
Lorsque la fonction de coût 0-1 est utilisée, on parle de taux d’erreur
théorique et E (g) = P(g(X ) 6= Y )
Le coût moyen empirique associé à l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est
n
X
bn (g) = 1
E
L(g(Xi ), Yi )
n i=1
On parle de risque moyen empirique
Lorsque la fonction de coût
0-1 est utilisée, on parle de taux d’erreur
bn (g) = 1 Pn 1(g(Xi ) 6= Yi )
empirique et E
i=1
n
Chapitre 1
Apprentissage supervisé
2015-2016
16 / 36
Théorie de la décision statistique
Classification
On cherche la règle de décision g qui minimise le risque moyen
Chapitre 1
Apprentissage supervisé
2015-2016
17 / 36
Théorie de la décision statistique
Classification
On cherche la règle de décision g qui minimise le risque moyen
Obtenue en prenant pour chaque x ∈ X
g ? (x ) = arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
Chapitre 1
Apprentissage supervisé
2015-2016
17 / 36
Théorie de la décision statistique
Classification
On cherche la règle de décision g qui minimise le risque moyen
Obtenue en prenant pour chaque x ∈ X
g ? (x ) = arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
Cette règle est appelée la règle de classification de Bayes
Chapitre 1
Apprentissage supervisé
2015-2016
17 / 36
Théorie de la décision statistique
Classification
On cherche la règle de décision g qui minimise le risque moyen
Obtenue en prenant pour chaque x ∈ X
g ? (x ) = arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
Cette règle est appelée la règle de classification de Bayes
Le risque associé E (g ? ) est appelé risque de Bayes
Chapitre 1
Apprentissage supervisé
2015-2016
17 / 36
Théorie de la décision statistique
Classification
On cherche la règle de décision g qui minimise le risque moyen
Obtenue en prenant pour chaque x ∈ X
g ? (x ) = arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
Cette règle est appelée la règle de classification de Bayes
Le risque associé E (g ? ) est appelé risque de Bayes
Lorsque la fonction de coût 0-1 est utilisée cette règle s’écrit
g ? (x ) = arg max P(Y = `|X = x )
`∈{1,...,K }
Chapitre 1
Apprentissage supervisé
2015-2016
17 / 36
Théorie de la décision statistique
Classification
On cherche la règle de décision g qui minimise le risque moyen
Obtenue en prenant pour chaque x ∈ X
g ? (x ) = arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
Cette règle est appelée la règle de classification de Bayes
Le risque associé E (g ? ) est appelé risque de Bayes
Lorsque la fonction de coût 0-1 est utilisée cette règle s’écrit
g ? (x ) = arg max P(Y = `|X = x )
`∈{1,...,K }
Le risque associé E (g ? ) est appelé taux d’erreur de Bayes.
Chapitre 1
Apprentissage supervisé
2015-2016
17 / 36
En pratique
Fonction de coût
Soit Ŷ = g(X ) ∈ Y la sortie prédite d’un individu et Y ∈ Y sa vraie valeur.
Chapitre 1
Apprentissage supervisé
2015-2016
18 / 36
En pratique
Fonction de coût
Soit Ŷ = g(X ) ∈ Y la sortie prédite d’un individu et Y ∈ Y sa vraie valeur.
Soit L : Y × Y → R une fonction de coût telle que L(Y , Ŷ ) est le coût
associé à la décision : “prédire Ŷ alors que la vraie valeur est Y ”.
Chapitre 1
Apprentissage supervisé
2015-2016
18 / 36
En pratique
Fonction de coût
Soit Ŷ = g(X ) ∈ Y la sortie prédite d’un individu et Y ∈ Y sa vraie valeur.
Soit L : Y × Y → R une fonction de coût telle que L(Y , Ŷ ) est le coût
associé à la décision : “prédire Ŷ alors que la vraie valeur est Y ”.
En classification, Y = {1, ..., K } et la fonction de coût peut être résumée
par une matrice de coûts C de taille K × K telle que Ck` = L(k, `).
vraie classe
k =1
k =2
...
k =K
Chapitre 1
`=1
C11 ≤ 0
C21 ≥ 0
.
.
.
CK 1 ≥ 0
Apprentissage supervisé
classe prédite
`=2
...
C12 ≥ 0
...
C22 ≤ 0
...
.
.
.
.
.
.
CK 2 ≥ 0
...
`=K
C1K ≥ 0
C2K ≥ 0
.
.
.
CKK ≤ 0
2015-2016
18 / 36
En pratique
Fonction de coût
Soit Ŷ = g(X ) ∈ Y la sortie prédite d’un individu et Y ∈ Y sa vraie valeur.
Soit L : Y × Y → R une fonction de coût telle que L(Y , Ŷ ) est le coût
associé à la décision : “prédire Ŷ alors que la vraie valeur est Y ”.
En classification, Y = {1, ..., K } et la fonction de coût peut être résumée
par une matrice de coûts C de taille K × K telle que Ck` = L(k, `).
vraie classe
k =1
k =2
...
k =K
`=1
C11 ≤ 0
C21 ≥ 0
.
.
.
CK 1 ≥ 0
classe prédite
`=2
...
C12 ≥ 0
...
C22 ≤ 0
...
.
.
.
.
.
.
CK 2 ≥ 0
...
`=K
C1K ≥ 0
C2K ≥ 0
.
.
.
CKK ≤ 0
La fonction de coût se réecrit :
L(Y , Ŷ ) = CY Ŷ =
K X
K
X
Ckl 1(Y = k et Ŷ = `)
k=1 `=1
Chapitre 1
Apprentissage supervisé
2015-2016
18 / 36
En pratique
Matrice de confusion
Soit un échantillon (Yi , Ŷi ), i = 1, ..., n de couples classe réelle, classe
prédite.
Chapitre 1
Apprentissage supervisé
2015-2016
19 / 36
En pratique
Matrice de confusion
Soit un échantillon (Yi , Ŷi ), i = 1, ..., n de couples classe réelle, classe
prédite.
La matrice de confusion comptabilise les occurences des prédictions en
fonction des vraies valeurs
vraie classe
k =1
k =2
...
k =K
`=1
p11 × n
p21 × n
.
.
.
pK 1 × n
classe prédite
`=2
...
p12 × n
...
p22 × n
...
.
.
.
.
.
.
pK 2 × n
...
`=K
p1K × n
p2K × n
.
.
.
pKK × n
où pk` est la proportion d’individus de classe k auxquels on a prédit la classe
`
Chapitre 1
Apprentissage supervisé
2015-2016
19 / 36
En pratique
Matrice de confusion
Soit un échantillon (Yi , Ŷi ), i = 1, ..., n de couples classe réelle, classe
prédite.
La matrice de confusion comptabilise les occurences des prédictions en
fonction des vraies valeurs
k =1
k =2
vraie classe
...
k =K
`=1
p11 × n
p21 × n
.
.
.
pK 1 × n
classe prédite
`=2
...
p12 × n
...
p22 × n
...
.
.
.
.
.
.
pK 2 × n
...
`=K
p1K × n
p2K × n
.
.
.
pKK × n
où pk` est la proportion d’individus de classe k auxquels on a prédit la classe
`
On a alors
pk` =
Chapitre 1
n
1X
1(Yi = k et Ŷi = `)
n i=1
Apprentissage supervisé
2015-2016
19 / 36
En pratique
Risque de prédiction
Le risque théorique ou encore
tauxi d’erreur théorique est l’espérance de la
h
fonction de coût E = E L(Y , Ŷ )
Chapitre 1
Apprentissage supervisé
2015-2016
20 / 36
En pratique
Risque de prédiction
Le risque théorique ou encore
tauxi d’erreur théorique est l’espérance de la
h
fonction de coût E = E L(Y , Ŷ )
Il peut être approché par le risque empirique ou encore taux d’erreur
empirique
Ên
=
n
1X
L(Yi , Ŷi )
n i=1
=
n
K
K
1 XXX
Ckl 1(Yi = k et Ŷi = `)
n i=1
k=1 `=1
=
K X
K
X
Ck` pk`
k=1 `=1
Il s’agit du coût moyen sur l’échantillon.
Chapitre 1
Apprentissage supervisé
2015-2016
20 / 36
En pratique
Exemples de risques empiriques
On prend l’exemple de la classification binaire
Chapitre 1
Apprentissage supervisé
2015-2016
21 / 36
En pratique
Exemples de risques empiriques
On prend l’exemple de la classification binaire
K = 2 et 1=positif et 2=négatif
Chapitre 1
Apprentissage supervisé
2015-2016
21 / 36
En pratique
Exemples de risques empiriques
On prend l’exemple de la classification binaire
K = 2 et 1=positif et 2=négatif
On note FP = p21 × n le nombre de faux positifs
Chapitre 1
Apprentissage supervisé
2015-2016
21 / 36
En pratique
Exemples de risques empiriques
On prend l’exemple de la classification binaire
K = 2 et 1=positif et 2=négatif
On note FP = p21 × n le nombre de faux positifs
On note FN = p12 × n le nombre de faux négatifs.
Chapitre 1
Apprentissage supervisé
2015-2016
21 / 36
En pratique
Exemples de risques empiriques
On prend l’exemple de la classification binaire
K = 2 et 1=positif et 2=négatif
On note FP = p21 × n le nombre de faux positifs
On note FN = p12 × n le nombre de faux négatifs.
Les deux fonctions de coût suivantes sont considérées.
Chapitre 1
Apprentissage supervisé
2015-2016
21 / 36
En pratique
Exemples de risques empiriques
On prend l’exemple de la classification binaire
K = 2 et 1=positif et 2=négatif
On note FP = p21 × n le nombre de faux positifs
On note FN = p12 × n le nombre de faux négatifs.
Les deux fonctions de coût suivantes sont considérées.
0 1
I La fonction de coût 0-1 avec C =
1 0
Chapitre 1
Apprentissage supervisé
2015-2016
21 / 36
En pratique
Exemples de risques empiriques
On prend l’exemple de la classification binaire
K = 2 et 1=positif et 2=négatif
On note FP = p21 × n le nombre de faux positifs
On note FN = p12 × n le nombre de faux négatifs.
Les deux fonctions de coût suivantes sont considérées.
0 1
I La fonction de coût 0-1 avec C =
1 0
0 1
I La fonction de coût pondérée avec C =
5 0
Chapitre 1
Apprentissage supervisé
2015-2016
21 / 36
En pratique
Exemples de risques empiriques
Fonction de coût 0-1
Chapitre 1
Apprentissage supervisé
2015-2016
22 / 36
En pratique
Exemples de risques empiriques
Fonction de coût 0-1
La matrice de coût ne distingue pas les deux types d’erreurs FP et FN
Chapitre 1
Apprentissage supervisé
2015-2016
22 / 36
En pratique
Exemples de risques empiriques
Fonction de coût 0-1
La matrice de coût ne distingue pas les deux types d’erreurs FP et FN
L’expression du coût moyen devient
Ên
=
2 X
2
X
Ck` pk`
k=1 `=1
= C11 p11 + C21 p21 + C12 p12 + C22 p22
= p21 + p12
FP + FN
=
n
ce qui correspond au taux d’erreur standard.
Chapitre 1
Apprentissage supervisé
2015-2016
22 / 36
En pratique
Exemples de risques empiriques
Fonction de coût pondérée
Chapitre 1
Apprentissage supervisé
2015-2016
23 / 36
En pratique
Exemples de risques empiriques
Fonction de coût pondérée
On associe un coût cinq fois plus important aux faux positifs
Chapitre 1
Apprentissage supervisé
2015-2016
23 / 36
En pratique
Exemples de risques empiriques
Fonction de coût pondérée
On associe un coût cinq fois plus important aux faux positifs
L’expression du coût moyen devient L’expression du coût moyen devient
Ên
= C11 p11 + C21 p21 + C12 p12 + C22 p22
= 5 × p21 + p12
5 × FP + FN
=
n
ce qui correspond à un taux d’erreur pondéré.
Chapitre 1
Apprentissage supervisé
2015-2016
23 / 36
En pratique
Règle de décision
Soit x ∈ X la variable d’entrée
Chapitre 1
Apprentissage supervisé
2015-2016
24 / 36
En pratique
Règle de décision
Soit x ∈ X la variable d’entrée
La règle optimale de classification de Bayes est donnée par
g(x ) =
arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
=
arg min
K
X
L(k, `)P(Y = k|X = x )
`∈{1,...,K } k=1
=
arg min
K
X
Ck` P(Y = k|X = x ) (approche discriminante)
`∈{1,...,K } k=1
=
arg min
K
X
Ck` f (x |Y = k)P(Y = k) (modèle génératif)
`∈{1,...,K } k=1
où f (x |Y = k) est la densité de X dans la classe k.
Chapitre 1
Apprentissage supervisé
2015-2016
24 / 36
En pratique
Règle de décision
Théorème de Bayes
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Chapitre 1
Apprentissage supervisé
2015-2016
25 / 36
En pratique
Règle de décision
Théorème de Bayes
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Cette règle de de classification de Bayes est applicable si l’on dispose
Chapitre 1
Apprentissage supervisé
2015-2016
25 / 36
En pratique
Règle de décision
Théorème de Bayes
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Cette règle de de classification de Bayes est applicable si l’on dispose
I
dans le cas discriminatif :
Chapitre 1
Apprentissage supervisé
2015-2016
25 / 36
En pratique
Règle de décision
Théorème de Bayes
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Cette règle de de classification de Bayes est applicable si l’on dispose
I
dans le cas discriminatif :
des probabilité à posteriori P(Y = k|X = x )
Chapitre 1
Apprentissage supervisé
2015-2016
25 / 36
En pratique
Règle de décision
Théorème de Bayes
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Cette règle de de classification de Bayes est applicable si l’on dispose
I
dans le cas discriminatif :
des probabilité à posteriori P(Y = k|X = x )
exemple : régression logistique
Chapitre 1
Apprentissage supervisé
2015-2016
25 / 36
En pratique
Règle de décision
Théorème de Bayes
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Cette règle de de classification de Bayes est applicable si l’on dispose
I
dans le cas discriminatif :
des probabilité à posteriori P(Y = k|X = x )
exemple : régression logistique
I
dans le cas génératif :
Chapitre 1
Apprentissage supervisé
2015-2016
25 / 36
En pratique
Règle de décision
Théorème de Bayes
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Cette règle de de classification de Bayes est applicable si l’on dispose
I
dans le cas discriminatif :
des probabilité à posteriori P(Y = k|X = x )
exemple : régression logistique
I
dans le cas génératif :
des fonctions de densité f (x |Y = k) aussi notées fk (x )
Chapitre 1
Apprentissage supervisé
2015-2016
25 / 36
En pratique
Règle de décision
Théorème de Bayes
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Cette règle de de classification de Bayes est applicable si l’on dispose
I
dans le cas discriminatif :
des probabilité à posteriori P(Y = k|X = x )
exemple : régression logistique
I
dans le cas génératif :
des fonctions de densité f (x |Y = k) aussi notées fk (x )
des probabilités à priori P(Y = k) aussi notées πk
Chapitre 1
Apprentissage supervisé
2015-2016
25 / 36
En pratique
Règle de décision
Théorème de Bayes
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Cette règle de de classification de Bayes est applicable si l’on dispose
I
dans le cas discriminatif :
des probabilité à posteriori P(Y = k|X = x )
exemple : régression logistique
I
dans le cas génératif :
des fonctions de densité f (x |Y = k) aussi notées fk (x )
des probabilités à priori P(Y = k) aussi notées πk
exemples : analyse discriminante, bayésien naı̈f
Chapitre 1
Apprentissage supervisé
2015-2016
25 / 36
En pratique
Règle de décision binaire
On considère le cas de la classification binaire
Chapitre 1
Apprentissage supervisé
2015-2016
26 / 36
En pratique
Règle de décision binaire
On considère le cas de la classification binaire
K = 2 classes et la matrice de coûts est C =
Chapitre 1
Apprentissage supervisé
0
C21
C12
0
2015-2016
26 / 36
En pratique
Règle de décision binaire
On considère le cas de la classification binaire
K = 2 classes et la matrice de coûts est C =
0
C21
C12
0
Deux cas sont à considérer :
Chapitre 1
Apprentissage supervisé
2015-2016
26 / 36
En pratique
Règle de décision binaire
On considère le cas de la classification binaire
K = 2 classes et la matrice de coûts est C =
0
C21
C12
0
Deux cas sont à considérer :
I
Si la règle prédit ` = 1:
E [L(Y , `)|X = x ] =
2
X
Ck1 P(Y = k|X = x )
k=1
= C21 P(Y = 2|X = x )
Chapitre 1
Apprentissage supervisé
2015-2016
26 / 36
En pratique
Règle de décision binaire
On considère le cas de la classification binaire
K = 2 classes et la matrice de coûts est C =
0
C21
C12
0
Deux cas sont à considérer :
I
Si la règle prédit ` = 1:
E [L(Y , `)|X = x ] =
2
X
Ck1 P(Y = k|X = x )
k=1
= C21 P(Y = 2|X = x )
I
Si la règle prédit ` = 2:
E [L(Y , `)|X = x ] =
2
X
Ck2 Pr(Y = k|X = x )
k=1
= C12 Pr(Y = 1|X = x )
Chapitre 1
Apprentissage supervisé
2015-2016
26 / 36
En pratique
Règle de décision binaire
On en déduit la règle de décision suivante :
Chapitre 1
Apprentissage supervisé
2015-2016
27 / 36
En pratique
Règle de décision binaire
On en déduit la règle de décision suivante :
I
cas discriminant : si C21 P(Y = 2|X = x ) ≤ C12 P(Y = 1|X = x ) i.e.
P(Y = 1|X = x ) ≥
C21
P(Y = 2|X = x )
C12
alors on affectera x à la classe g(x ) = 1, sinon on affectera x à la
classe g(x ) = 2.
Chapitre 1
Apprentissage supervisé
2015-2016
27 / 36
En pratique
Règle de décision binaire
On en déduit la règle de décision suivante :
I
cas discriminant : si C21 P(Y = 2|X = x ) ≤ C12 P(Y = 1|X = x ) i.e.
P(Y = 1|X = x ) ≥
C21
P(Y = 2|X = x )
C12
alors on affectera x à la classe g(x ) = 1, sinon on affectera x à la
classe g(x ) = 2.
I
cas génératif : si C21 f (x |Y = 2)P(Y = 2) ≤ C12 f (x |Y = 1)P(Y = 1)
i.e.
C21 π2
f (x |Y = 1) ≥
f (x |Y = 2)
C12 π1
où P(Y = k) = πk , alors on affectera x à la classe g(x ) = 1, sinon on
affectera x à la classe g(x ) = 2.
Chapitre 1
Apprentissage supervisé
2015-2016
27 / 36
En pratique
Règle de décision binaire
Si C21 = C12 (fonction de coût 0-1) on retrouve la règle d’affectation de la
classe la plus probable à posteriori
Chapitre 1
Apprentissage supervisé
2015-2016
28 / 36
En pratique
Règle de décision binaire
Si C21 = C12 (fonction de coût 0-1) on retrouve la règle d’affectation de la
classe la plus probable à posteriori
I
cas discriminant :
(
1 si P(Y = 1|X = x ) ≥ P(Y = 2|X = x )
g(x ) =
2 sinon
Chapitre 1
Apprentissage supervisé
2015-2016
28 / 36
En pratique
Règle de décision binaire
Si C21 = C12 (fonction de coût 0-1) on retrouve la règle d’affectation de la
classe la plus probable à posteriori
I
cas discriminant :
(
1 si P(Y = 1|X = x ) ≥ P(Y = 2|X = x )
g(x ) =
2 sinon
I
cas génératif :
(
1
g(x ) =
2
Chapitre 1
si π1 f (x |Y = 1) ≥ π2 f (x |Y = 2)
sinon
Apprentissage supervisé
2015-2016
28 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Chapitre 1
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Approche basée sur un modèle
Chapitre 1
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Approche basée sur un modèle
I
Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y )
Chapitre 1
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Approche basée sur un modèle
I
Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y )
F
Chapitre 1
Approche dite générative
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Approche basée sur un modèle
I
Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y )
F
F
Chapitre 1
Approche dite générative
Exemples : Analyse discriminante linéaire, bayésien naı̈f
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Approche basée sur un modèle
I
Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y )
F
F
I
Approche dite générative
Exemples : Analyse discriminante linéaire, bayésien naı̈f
Apprentissage direct de Loi(Y |X )
Chapitre 1
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Approche basée sur un modèle
I
Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y )
F
F
I
Approche dite générative
Exemples : Analyse discriminante linéaire, bayésien naı̈f
Apprentissage direct de Loi(Y |X )
F
Chapitre 1
Approche dite discriminative
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Approche basée sur un modèle
I
Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y )
F
F
I
Approche dite générative
Exemples : Analyse discriminante linéaire, bayésien naı̈f
Apprentissage direct de Loi(Y |X )
F
F
Chapitre 1
Approche dite discriminative
Exemple : Régression logistique
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Approche basée sur un modèle
I
Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y )
F
F
I
Approche dite générative
Exemples : Analyse discriminante linéaire, bayésien naı̈f
Apprentissage direct de Loi(Y |X )
F
F
Approche dite discriminative
Exemple : Régression logistique
Approche de type prototype
Chapitre 1
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Approche basée sur un modèle
I
Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y )
F
F
I
Approche dite générative
Exemples : Analyse discriminante linéaire, bayésien naı̈f
Apprentissage direct de Loi(Y |X )
F
F
Approche dite discriminative
Exemple : Régression logistique
Approche de type prototype
I
Apprentissage direct de la règle de classification Y = g(X )
Chapitre 1
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Approche basée sur un modèle
I
Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y )
F
F
I
Approche dite générative
Exemples : Analyse discriminante linéaire, bayésien naı̈f
Apprentissage direct de Loi(Y |X )
F
F
Approche dite discriminative
Exemple : Régression logistique
Approche de type prototype
I
I
Apprentissage direct de la règle de classification Y = g(X )
Exemple : K-plus proches voisins, arbres de décisions, forêts aléatoires,
etc.
Chapitre 1
Apprentissage supervisé
2015-2016
29 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y
les probabilités à posteriori
P[Y = k|X = x ]
Chapitre 1
Apprentissage supervisé
2015-2016
30 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y
les probabilités à posteriori
P[Y = k|X = x ]
Approche paramétrique
Chapitre 1
Apprentissage supervisé
2015-2016
30 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y
les probabilités à posteriori
P[Y = k|X = x ]
Approche paramétrique
I Régression logistique: Y = {0, 1} et
P[Y = 1|X = x ] =
Chapitre 1
Apprentissage supervisé
exp(X T β)
1 + exp(X T β)
2015-2016
30 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y
les probabilités à posteriori
P[Y = k|X = x ]
Approche paramétrique
I Régression logistique: Y = {0, 1} et
P[Y = 1|X = x ] =
I
exp(X T β)
1 + exp(X T β)
Analyse discriminante:
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
et
f (x |Y = k) =
Chapitre 1
1
1
exp(− (x − µk )T Σk −1 (x − µk ))
2
(2π)p/2 |Σk |1/2
Apprentissage supervisé
2015-2016
30 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y
les probabilités à posteriori
P[Y = k|X = x ]
Approche paramétrique
I Régression logistique: Y = {0, 1} et
P[Y = 1|X = x ] =
I
exp(X T β)
1 + exp(X T β)
Analyse discriminante:
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
et
f (x |Y = k) =
1
1
exp(− (x − µk )T Σk −1 (x − µk ))
2
(2π)p/2 |Σk |1/2
Estimation des paramètres sur l’échantillon d’apprentissage
Chapitre 1
Apprentissage supervisé
2015-2016
30 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Approche non paramétrique
Chapitre 1
Apprentissage supervisé
2015-2016
31 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Approche non paramétrique
I
Approche de type modèle avec estimation non paramétrique de
f (x |Y = k).
Par exemple estimée de Parzen
n
f (x0 |Y = k) =
1 X
Kλ (x0 , xi )
nλ i=1
où Kλ est un noyau donné, e.g. gaussien 1D
1
1
2
Kλ (x0 , x ) = √ exp − 2 (x0 − x )
2λ
2π
Chapitre 1
Apprentissage supervisé
2015-2016
31 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Approche non paramétrique
I
Approche de type modèle avec estimation non paramétrique de
f (x |Y = k).
Par exemple estimée de Parzen
n
f (x0 |Y = k) =
1 X
Kλ (x0 , xi )
nλ i=1
où Kλ est un noyau donné, e.g. gaussien 1D
1
1
2
Kλ (x0 , x ) = √ exp − 2 (x0 − x )
2λ
2π
I
Approche de type prototype
Chapitre 1
Apprentissage supervisé
2015-2016
31 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Approche non paramétrique
I
Approche de type modèle avec estimation non paramétrique de
f (x |Y = k).
Par exemple estimée de Parzen
n
f (x0 |Y = k) =
1 X
Kλ (x0 , xi )
nλ i=1
où Kλ est un noyau donné, e.g. gaussien 1D
1
1
2
Kλ (x0 , x ) = √ exp − 2 (x0 − x )
2λ
2π
I
Approche de type prototype
F
Chapitre 1
Apprentissage direct de la règle de classification Y = g(X )
Apprentissage supervisé
2015-2016
31 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Approche non paramétrique
I
Approche de type modèle avec estimation non paramétrique de
f (x |Y = k).
Par exemple estimée de Parzen
n
f (x0 |Y = k) =
1 X
Kλ (x0 , xi )
nλ i=1
où Kλ est un noyau donné, e.g. gaussien 1D
1
1
2
Kλ (x0 , x ) = √ exp − 2 (x0 − x )
2λ
2π
I
Approche de type prototype
F
F
Chapitre 1
Apprentissage direct de la règle de classification Y = g(X )
Exemple : K-plus proches voisins, arbres de décisions, forêts aléatoires,
etc.
Apprentissage supervisé
2015-2016
31 / 36
Les méthodes de classification supervisées
Paramétrique ou non
Approche non paramétrique
I
Approche de type modèle avec estimation non paramétrique de
f (x |Y = k).
Par exemple estimée de Parzen
n
f (x0 |Y = k) =
1 X
Kλ (x0 , xi )
nλ i=1
où Kλ est un noyau donné, e.g. gaussien 1D
1
1
2
Kλ (x0 , x ) = √ exp − 2 (x0 − x )
2λ
2π
I
Approche de type prototype
F
F
Apprentissage direct de la règle de classification Y = g(X )
Exemple : K-plus proches voisins, arbres de décisions, forêts aléatoires,
etc.
Toujours un un paramètre à choisir.
Chapitre 1
Apprentissage supervisé
2015-2016
31 / 36
Une méthode simple
k plus proches voisins
Approche de type prototype
Chapitre 1
Apprentissage supervisé
2015-2016
32 / 36
Une méthode simple
k plus proches voisins
Approche de type prototype
Variables d’entrée réelles X ∈ Rp
Chapitre 1
Apprentissage supervisé
2015-2016
32 / 36
Une méthode simple
k plus proches voisins
Approche de type prototype
Variables d’entrée réelles X ∈ Rp
règle de classification dans le cas d’une réponse binaire Y ∈ {0, 1}
X
X
g(X ) =1 si
Yi >
(1 − Yi )
Xi ∈Nk (X )
Xi ∈Nk (X )
=0 sinon
où Nk (X ) est un voisinage de X contenant uniquement les k plus proches
voisins de l’ensemble d’apprentissage
Chapitre 1
Apprentissage supervisé
2015-2016
32 / 36
Une méthode simple
k plus proches voisins
Approche de type prototype
Variables d’entrée réelles X ∈ Rp
règle de classification dans le cas d’une réponse binaire Y ∈ {0, 1}
X
X
g(X ) =1 si
Yi >
(1 − Yi )
Xi ∈Nk (X )
Xi ∈Nk (X )
=0 sinon
où Nk (X ) est un voisinage de X contenant uniquement les k plus proches
voisins de l’ensemble d’apprentissage
Vote à la majorité parmi les k plus proches voisins du point x à classer
Chapitre 1
Apprentissage supervisé
2015-2016
32 / 36
Une méthode simple
k plus proches voisins
Exemple avec k = 15, p = 2
Chapitre 1
Apprentissage supervisé
2015-2016
33 / 36
Une méthode simple
k plus proches voisins
k=15
Chapitre 1
k=1
Apprentissage supervisé
2015-2016
34 / 36
Une méthode simple
k plus proches voisins
Pour appliquer cette méthode il faut fixer un paramètre : le nombre de
voisins k
Chapitre 1
Apprentissage supervisé
2015-2016
35 / 36
Une méthode simple
k plus proches voisins
Pour appliquer cette méthode il faut fixer un paramètre : le nombre de
voisins k
Une stratégie de choix du paramètre k
Chapitre 1
Apprentissage supervisé
2015-2016
35 / 36
Une méthode simple
k plus proches voisins
Pour appliquer cette méthode il faut fixer un paramètre : le nombre de
voisins k
Une stratégie de choix du paramètre k
I
Choisir un échantillon d’apprentissage et un échantillon test
Chapitre 1
Apprentissage supervisé
2015-2016
35 / 36
Une méthode simple
k plus proches voisins
Pour appliquer cette méthode il faut fixer un paramètre : le nombre de
voisins k
Une stratégie de choix du paramètre k
I
I
Choisir un échantillon d’apprentissage et un échantillon test
Faire varier k
Chapitre 1
Apprentissage supervisé
2015-2016
35 / 36
Une méthode simple
k plus proches voisins
Pour appliquer cette méthode il faut fixer un paramètre : le nombre de
voisins k
Une stratégie de choix du paramètre k
I
I
I
Choisir un échantillon d’apprentissage et un échantillon test
Faire varier k
Pour chaque valeur de k calculer le taux d’erreur empirique de
prédiction des individus de l’échantillon test.
Chapitre 1
Apprentissage supervisé
2015-2016
35 / 36
Une méthode simple
k plus proches voisins
Chapitre 1
Apprentissage supervisé
2015-2016
36 / 36

Documents pareils