Apprentissage supervisé et théorie de la décision

Transcription

Apprentissage supervisé et théorie de la décision
Chapitre 1
Marie Chavent
à partir des cours d’Adrien Todeschini et Francois Caron
Master MIMSE - Université de Bordeaux
2015-2016
Chapitre 1
Apprentissage supervisé
2015-2016
1 / 36
Ressources
Livres de référence
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani (2013).
An Introduction to Statistical Learning
Springer. http://www-bcf.usc.edu/˜gareth/ISL/
Larry Wasserman (2004).
All of statistics - A concise course in Statistical Inference
Springer Texts in Statistics.
http://www.stat.cmu.edu/˜larry/all-of-statistics/
Trevor Hastie, Robert Tibshirani et Jerome Friedman (2009).
The Elements of Statistical Learning
Springer Series in Statistics.
http://statweb.stanford.edu/˜tibs/ElemStatLearn/
Christopher M. Bishop (2009).
Pattern recognition and machine learning.
Springer. http://research.microsoft.com/en-us/um/people/cmbishop/prml/
Chapitre 1
2015-2016
2 / 36
Ressources
Cours en ligne
I
I
Machine Learning, Andrew Ng (Stanford University) :
https://www.coursera.org/course/ml
WikiStat : http://wikistat.fr/
Logiciels
I
I
R + RStudio : http://www.rstudio.com/
Python + scikit-learn : http://scikit-learn.org/
Technologies big data
I
I
MapReduce avec RHadoop
Spark+MLlib : http://spark.apache.org/mllib/
Jeux de données
I
UC Irvine Machine Learning Repository :
http://archive.ics.uci.edu/ml/
Challenges industriels
I
I
Kaggle : https://www.kaggle.com/
Datascience.net : https://datascience.net/
Chapitre 1
2015-2016
3 / 36
Introduction
Exemples
L’apprentissage statistique joue un rôle important dans de nombreux
problèmes
I
Prédire si un patient, souffrant d’une attaque cardiaque, aura à
nouveau une attaque cardiaque, en se basant sur des mesures cliniques
et démographiques sur ce patient
Chapitre 1
2015-2016
4 / 36
Introduction
Exemples
problèmes
I
I
Prédire la consommation en électricité d’un client à partir de données
sur l’habitation et les habitudes de consommation
Chapitre 1
2015-2016
4 / 36
Introduction
Exemples
problèmes
I
I
I
Identifier de façon automatique les chiffres du code postal sur une
enveloppe
Chapitre 1
2015-2016
4 / 36
Introduction
Exemples
problèmes
I
I
I
I
Identifier de façon automatique les chiffres du code postal sur une
enveloppe
Identifier des groupes de sujets similaires dans un ensemble d’articles
sur le web
Chapitre 1
2015-2016
4 / 36
Introduction
Exemples
Variable de sortie
Chapitre 1
2015-2016
5 / 36
Introduction
Exemples
Variable de sortie
I
quantitative (e.g. consommation d’électricité)
Chapitre 1
2015-2016
5 / 36
Introduction
Exemples
Variable de sortie
I
I
qualitative (attaque cardiaque: oui/non)
Chapitre 1
2015-2016
5 / 36
Introduction
Exemples
Variable de sortie
I
I
Objectif : Prédire la valeur de cette variable de sortie en fonction d’un
ensemble de caractéristiques (mesures cliniques du patient, données
sur l’habitation, etc.)
Chapitre 1
2015-2016
5 / 36
Introduction
Exemples
Variable de sortie
I
I
Objectif : Prédire la valeur de cette variable de sortie en fonction d’un
ensemble de caractéristiques (mesures cliniques du patient, données
sur l’habitation, etc.)
Ensemble d’apprentissage: couples de valeurs entrées/sorties
permettant de créer un modèle de prédiction, utilisé pour prédire de
nouveaux cas
Chapitre 1
2015-2016
5 / 36
Exemples
Reconnaissance de caractères manuscripts
Objectif : Prédire la classe de chaque image (0,. . . ,9) à partir d’une
matrice de 16 × 16 pixel, chaque pixel ayant une intensité de 0 à 255
Chapitre 1
2015-2016
6 / 36
Exemples
Taux d’erreur doit être faible afin d’éviter les mauvaises attributions
du courrier
Chapitre 1
2015-2016
6 / 36
Exemples
Taux d’erreur doit être faible afin d’éviter les mauvaises attributions
du courrier
[Classification supervisée]
Chapitre 1
2015-2016
6 / 36
Exemples
Reconnaissance automatique de spams
Spam
No Spam
WINNING NOTIFICATION
We are pleased to inform you of the result
of the Lottery Winners International
programs held on the 30th january 2005.
[...] You have been approved for a lump sum
pay out of 175,000.00 euros.
CONGRATULATIONS!!!
Dear George,
Could you please send me the report #1248 on
the project advancement?
Thanks in advance.
Regards,
Cathia
Base de données de courriel identifiés ou non comme spam
Chapitre 1
2015-2016
7 / 36
Exemples
Spam
No Spam
CONGRATULATIONS!!!
Dear George,
Thanks in advance.
Regards,
Cathia
Objectif : Définir un modèle de prédiction permettant, à l’arrivée d’un
courriel de prédire si celui-ci est un spam ou non
Chapitre 1
2015-2016
7 / 36
Exemples
Spam
No Spam
CONGRATULATIONS!!!
Dear George,
Thanks in advance.
Regards,
Cathia
Taux d’erreur doit être faible afin d’éviter de supprimer des messages
importants ou d’inonder la boite au lettre de courriers inutiles
Chapitre 1
2015-2016
7 / 36
Exemples
Spam
No Spam
CONGRATULATIONS!!!
Dear George,
Thanks in advance.
Regards,
Cathia
Taux d’erreur doit être faible afin d’éviter de supprimer des messages
importants ou d’inonder la boite au lettre de courriers inutiles
[Classification supervisée]
Chapitre 1
2015-2016
7 / 36
Exemples
Classification de signaux neuronaux
Brefs potentiels d’action enregistrés par une micro-électrode
Objectif : classer les signaux afin d’attribuer chaque potentiel à un
neurone particulier
Chapitre 1
2015-2016
8 / 36
Exemples
neurone particulier
Chapitre 1
2015-2016
9 / 36
Exemples
neurone particulier
Chapitre 1
2015-2016
10 / 36
Exemples
neurone particulier
[Classification non supervisée]
Chapitre 1
2015-2016
10 / 36
Exemples
Classification de séquences d’expression de gènes
Puces à ADN : données d’expression de gène pour plusieurs gènes et
plusieurs conditions expérimentales
Classification de gènes avec des séquences d’expression similaires
Chapitre 1
2015-2016
11 / 36
Exemples
Chapitre 1
2015-2016
12 / 36
Exemples
[Classification non supervisée]
Chapitre 1
2015-2016
12 / 36
Définitions
Régression vs classification
Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives
Chapitre 1
2015-2016
13 / 36
Définitions
Variable de sortie Y : variable à expliquer ou de réponse
Chapitre 1
2015-2016
13 / 36
Définitions
I
Y quantitative
Chapitre 1
Problème de régression
2015-2016
13 / 36
Définitions
I
I
Y quantitative
Y qualitative
Chapitre 1
Problème de classification
2015-2016
13 / 36
Définitions
I
I
Y quantitative
Y qualitative
On s’intéressera principalement dans ce cours à des problèmes de
classification où Y est une variable qualitative à K modalités et on parle de
problème de discrimination en K classes.
Chapitre 1
2015-2016
13 / 36
Définitions
I
I
Y quantitative
Y qualitative
Vocabulaire : apprentissage = machine learning
Chapitre 1
2015-2016
13 / 36
Définitions
I
I
Y quantitative
Y qualitative
I
Classification supervisée = discrimination
Chapitre 1
2015-2016
13 / 36
Définitions
I
I
Y quantitative
Y qualitative
I
I
Classification supervisée = discrimination
Classification non supervisée = clustering
Chapitre 1
2015-2016
13 / 36
Définitions
Classification
Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn )
Chapitre 1
2015-2016
14 / 36
Définitions
Classification
Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp
Chapitre 1
2015-2016
14 / 36
Définitions
Classification
Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K }
Chapitre 1
2015-2016
14 / 36
Définitions
Classification
Définition
Une règle de classification est une fonction g : X → Y.
Chapitre 1
2015-2016
14 / 36
Définitions
Classification
Définition
Ensemble d’apprentissage : ensemble de données permettant l’apprentissage
de la règle de classification g
Chapitre 1
2015-2016
14 / 36
Définitions
Classification
Définition
I
Classification supervisée : on dispose d’un ensemble de couples (Xi , Yi )
pour l’apprentissage de g.
Chapitre 1
2015-2016
14 / 36
Définitions
Classification
Définition
I
I
Classification supervisée : on dispose d’un ensemble de couples (Xi , Yi )
pour l’apprentissage de g.
Classification non supervisée : on ne dispose que de données (Xi ) non
classées
Chapitre 1
2015-2016
14 / 36
Définitions
Classification supervisée
Objectif : A partir de l’ensemble d’apprentissage, définir une règle de
classification g permettant des prédictions précises sur de nouveau éléments
Chapitre 1
2015-2016
15 / 36
Définitions
Erreur de prédiction est quantifiée par une fonction de coût L : Y × Y → R
Chapitre 1
2015-2016
15 / 36
Définitions
En classification on considère souvent la fonction de coût 0-1
L(i, j) = 0 si i = j
= 1 sinon
Chapitre 1
2015-2016
15 / 36
Définitions
En classification on considère souvent la fonction de coût 0-1
L(i, j) = 0 si i = j
= 1 sinon
Combien cela me coûte-t-il de faire des mauvaises prédictions?
Chapitre 1
2015-2016
15 / 36
Définitions
Le coût moyen d’une règle de classification g est
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
Chapitre 1
2015-2016
16 / 36
Définitions
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
Ce coût moyen est appelé risque moyen théorique
Chapitre 1
2015-2016
16 / 36
Définitions
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
Lorsque la fonction de coût 0-1 est utilisée, on parle de taux d’erreur
théorique et E (g) = P(g(X ) 6= Y )
Chapitre 1
2015-2016
16 / 36
Définitions
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
Le coût moyen empirique associé à l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est
n
X
bn (g) = 1
E
L(g(Xi ), Yi )
n i=1
Chapitre 1
2015-2016
16 / 36
Définitions
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
n
X
bn (g) = 1
E
L(g(Xi ), Yi )
n i=1
On parle de risque moyen empirique
Chapitre 1
2015-2016
16 / 36
Définitions
E (g) = EX ,Y [L(Y , g(X )]
= EX [EY [L(g(X , Y )|X ]]
n
X
bn (g) = 1
E
L(g(Xi ), Yi )
n i=1
On parle de risque moyen empirique
Lorsque la fonction de coût
0-1 est utilisée, on parle de taux d’erreur
bn (g) = 1 Pn 1(g(Xi ) 6= Yi )
empirique et E
i=1
n
Chapitre 1
2015-2016
16 / 36
Théorie de la décision statistique
Classification
On cherche la règle de décision g qui minimise le risque moyen
Chapitre 1
2015-2016
17 / 36
Classification
Obtenue en prenant pour chaque x ∈ X
g ? (x ) = arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
Chapitre 1
2015-2016
17 / 36
Classification
g ? (x ) = arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
Cette règle est appelée la règle de classification de Bayes
Chapitre 1
2015-2016
17 / 36
Classification
g ? (x ) = arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
Le risque associé E (g ? ) est appelé risque de Bayes
Chapitre 1
2015-2016
17 / 36
Classification
g ? (x ) = arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
Lorsque la fonction de coût 0-1 est utilisée cette règle s’écrit
g ? (x ) = arg max P(Y = `|X = x )
`∈{1,...,K }
Chapitre 1
2015-2016
17 / 36
Classification
g ? (x ) = arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
Lorsque la fonction de coût 0-1 est utilisée cette règle s’écrit
g ? (x ) = arg max P(Y = `|X = x )
`∈{1,...,K }
Le risque associé E (g ? ) est appelé taux d’erreur de Bayes.
Chapitre 1
2015-2016
17 / 36
En pratique
Fonction de coût
Soit Ŷ = g(X ) ∈ Y la sortie prédite d’un individu et Y ∈ Y sa vraie valeur.
Chapitre 1
2015-2016
18 / 36
En pratique
Fonction de coût
Soit L : Y × Y → R une fonction de coût telle que L(Y , Ŷ ) est le coût
associé à la décision : “prédire Ŷ alors que la vraie valeur est Y ”.
Chapitre 1
2015-2016
18 / 36
En pratique
Fonction de coût
En classification, Y = {1, ..., K } et la fonction de coût peut être résumée
par une matrice de coûts C de taille K × K telle que Ck` = L(k, `).
vraie classe
k =1
k =2
...
k =K
Chapitre 1
`=1
C11 ≤ 0
C21 ≥ 0
.
.
.
CK 1 ≥ 0
classe prédite
`=2
...
C12 ≥ 0
...
C22 ≤ 0
...
.
.
.
.
.
.
CK 2 ≥ 0
...
`=K
C1K ≥ 0
C2K ≥ 0
.
.
.
CKK ≤ 0
2015-2016
18 / 36
En pratique
Fonction de coût
En classification, Y = {1, ..., K } et la fonction de coût peut être résumée
par une matrice de coûts C de taille K × K telle que Ck` = L(k, `).
vraie classe
k =1
k =2
...
k =K
`=1
C11 ≤ 0
C21 ≥ 0
.
.
.
CK 1 ≥ 0
classe prédite
`=2
...
C12 ≥ 0
...
C22 ≤ 0
...
.
.
.
.
.
.
CK 2 ≥ 0
...
`=K
C1K ≥ 0
C2K ≥ 0
.
.
.
CKK ≤ 0
La fonction de coût se réecrit :
L(Y , Ŷ ) = CY Ŷ =
K X
K
X
Ckl 1(Y = k et Ŷ = `)
k=1 `=1
Chapitre 1
2015-2016
18 / 36
En pratique
Matrice de confusion
Soit un échantillon (Yi , Ŷi ), i = 1, ..., n de couples classe réelle, classe
prédite.
Chapitre 1
2015-2016
19 / 36
En pratique
prédite.
La matrice de confusion comptabilise les occurences des prédictions en
fonction des vraies valeurs
vraie classe
k =1
k =2
...
k =K
`=1
p11 × n
p21 × n
.
.
.
pK 1 × n
classe prédite
`=2
...
p12 × n
...
p22 × n
...
.
.
.
.
.
.
pK 2 × n
...
`=K
p1K × n
p2K × n
.
.
.
pKK × n
où pk` est la proportion d’individus de classe k auxquels on a prédit la classe
`
Chapitre 1
2015-2016
19 / 36
En pratique
prédite.
La matrice de confusion comptabilise les occurences des prédictions en
fonction des vraies valeurs
k =1
k =2
vraie classe
...
k =K
`=1
p11 × n
p21 × n
.
.
.
pK 1 × n
classe prédite
`=2
...
p12 × n
...
p22 × n
...
.
.
.
.
.
.
pK 2 × n
...
`=K
p1K × n
p2K × n
.
.
.
pKK × n
où pk` est la proportion d’individus de classe k auxquels on a prédit la classe
`
On a alors
pk` =
Chapitre 1
n
1X
1(Yi = k et Ŷi = `)
n i=1
2015-2016
19 / 36
En pratique
Risque de prédiction
Le risque théorique ou encore
tauxi d’erreur théorique est l’espérance de la
h
fonction de coût E = E L(Y , Ŷ )
Chapitre 1
2015-2016
20 / 36
En pratique
Risque de prédiction
Le risque théorique ou encore
tauxi d’erreur théorique est l’espérance de la
h
fonction de coût E = E L(Y , Ŷ )
Il peut être approché par le risque empirique ou encore taux d’erreur
empirique
Ên
=
n
1X
L(Yi , Ŷi )
n i=1
=
n
K
K
1 XXX
Ckl 1(Yi = k et Ŷi = `)
n i=1
k=1 `=1
=
K X
K
X
Ck` pk`
k=1 `=1
Il s’agit du coût moyen sur l’échantillon.
Chapitre 1
2015-2016
20 / 36
En pratique
Exemples de risques empiriques
On prend l’exemple de la classification binaire
Chapitre 1
2015-2016
21 / 36
En pratique
K = 2 et 1=positif et 2=négatif
Chapitre 1
2015-2016
21 / 36
En pratique
On note FP = p21 × n le nombre de faux positifs
Chapitre 1
2015-2016
21 / 36
En pratique
On note FN = p12 × n le nombre de faux négatifs.
Chapitre 1
2015-2016
21 / 36
En pratique
Les deux fonctions de coût suivantes sont considérées.
Chapitre 1
2015-2016
21 / 36
En pratique
0 1
I La fonction de coût 0-1 avec C =
1 0
Chapitre 1
2015-2016
21 / 36
En pratique
0 1
I La fonction de coût 0-1 avec C =
1 0
0 1
I La fonction de coût pondérée avec C =
5 0
Chapitre 1
2015-2016
21 / 36
En pratique
Fonction de coût 0-1
Chapitre 1
2015-2016
22 / 36
En pratique
La matrice de coût ne distingue pas les deux types d’erreurs FP et FN
Chapitre 1
2015-2016
22 / 36
En pratique
La matrice de coût ne distingue pas les deux types d’erreurs FP et FN
L’expression du coût moyen devient
Ên
=
2 X
2
X
Ck` pk`
k=1 `=1
= C11 p11 + C21 p21 + C12 p12 + C22 p22
= p21 + p12
FP + FN
=
n
ce qui correspond au taux d’erreur standard.
Chapitre 1
2015-2016
22 / 36
En pratique
Fonction de coût pondérée
Chapitre 1
2015-2016
23 / 36
En pratique
On associe un coût cinq fois plus important aux faux positifs
Chapitre 1
2015-2016
23 / 36
En pratique
On associe un coût cinq fois plus important aux faux positifs
L’expression du coût moyen devient L’expression du coût moyen devient
Ên
= C11 p11 + C21 p21 + C12 p12 + C22 p22
= 5 × p21 + p12
5 × FP + FN
=
n
ce qui correspond à un taux d’erreur pondéré.
Chapitre 1
2015-2016
23 / 36
En pratique
Règle de décision
Soit x ∈ X la variable d’entrée
Chapitre 1
2015-2016
24 / 36
En pratique
Soit x ∈ X la variable d’entrée
La règle optimale de classification de Bayes est donnée par
g(x ) =
arg min E [L(Y , `)|X = x ]
`∈{1,...,K }
=
arg min
K
X
L(k, `)P(Y = k|X = x )
`∈{1,...,K } k=1
=
arg min
K
X
Ck` P(Y = k|X = x ) (approche discriminante)
`∈{1,...,K } k=1
=
arg min
K
X
Ck` f (x |Y = k)P(Y = k) (modèle génératif)
`∈{1,...,K } k=1
où f (x |Y = k) est la densité de X dans la classe k.
Chapitre 1
2015-2016
24 / 36
En pratique
Théorème de Bayes
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Chapitre 1
2015-2016
25 / 36
En pratique
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
Cette règle de de classification de Bayes est applicable si l’on dispose
Chapitre 1
2015-2016
25 / 36
En pratique
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
I
dans le cas discriminatif :
Chapitre 1
2015-2016
25 / 36
En pratique
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
I
des probabilité à posteriori P(Y = k|X = x )
Chapitre 1
2015-2016
25 / 36
En pratique
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
I
exemple : régression logistique
Chapitre 1
2015-2016
25 / 36
En pratique
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
I
I
dans le cas génératif :
Chapitre 1
2015-2016
25 / 36
En pratique
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
I
I
des fonctions de densité f (x |Y = k) aussi notées fk (x )
Chapitre 1
2015-2016
25 / 36
En pratique
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
I
I
des probabilités à priori P(Y = k) aussi notées πk
Chapitre 1
2015-2016
25 / 36
En pratique
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
I
I
des probabilités à priori P(Y = k) aussi notées πk
exemples : analyse discriminante, bayésien naı̈f
Chapitre 1
2015-2016
25 / 36
En pratique
Règle de décision binaire
On considère le cas de la classification binaire
Chapitre 1
2015-2016
26 / 36
En pratique
K = 2 classes et la matrice de coûts est C =
Chapitre 1
0
C21
C12
0
2015-2016
26 / 36
En pratique
0
C21
C12
0
Deux cas sont à considérer :
Chapitre 1
2015-2016
26 / 36
En pratique
0
C21
C12
0
I
Si la règle prédit ` = 1:
E [L(Y , `)|X = x ] =
2
X
Ck1 P(Y = k|X = x )
k=1
= C21 P(Y = 2|X = x )
Chapitre 1
2015-2016
26 / 36
En pratique
0
C21
C12
0
I
E [L(Y , `)|X = x ] =
2
X
Ck1 P(Y = k|X = x )
k=1
= C21 P(Y = 2|X = x )
I
E [L(Y , `)|X = x ] =
2
X
Ck2 Pr(Y = k|X = x )
k=1
= C12 Pr(Y = 1|X = x )
Chapitre 1
2015-2016
26 / 36
En pratique
On en déduit la règle de décision suivante :
Chapitre 1
2015-2016
27 / 36
En pratique
I
cas discriminant : si C21 P(Y = 2|X = x ) ≤ C12 P(Y = 1|X = x ) i.e.
P(Y = 1|X = x ) ≥
C21
P(Y = 2|X = x )
C12
alors on affectera x à la classe g(x ) = 1, sinon on affectera x à la
classe g(x ) = 2.
Chapitre 1
2015-2016
27 / 36
En pratique
I
cas discriminant : si C21 P(Y = 2|X = x ) ≤ C12 P(Y = 1|X = x ) i.e.
P(Y = 1|X = x ) ≥
C21
P(Y = 2|X = x )
C12
alors on affectera x à la classe g(x ) = 1, sinon on affectera x à la
classe g(x ) = 2.
I
cas génératif : si C21 f (x |Y = 2)P(Y = 2) ≤ C12 f (x |Y = 1)P(Y = 1)
i.e.
C21 π2
f (x |Y = 1) ≥
f (x |Y = 2)
C12 π1
où P(Y = k) = πk , alors on affectera x à la classe g(x ) = 1, sinon on
affectera x à la classe g(x ) = 2.
Chapitre 1
2015-2016
27 / 36
En pratique
Si C21 = C12 (fonction de coût 0-1) on retrouve la règle d’affectation de la
classe la plus probable à posteriori
Chapitre 1
2015-2016
28 / 36
En pratique
I
cas discriminant :
(
1 si P(Y = 1|X = x ) ≥ P(Y = 2|X = x )
g(x ) =
2 sinon
Chapitre 1
2015-2016
28 / 36
En pratique
I
cas discriminant :
(
1 si P(Y = 1|X = x ) ≥ P(Y = 2|X = x )
g(x ) =
2 sinon
I
cas génératif :
(
1
g(x ) =
2
Chapitre 1
si π1 f (x |Y = 1) ≥ π2 f (x |Y = 2)
sinon
2015-2016
28 / 36
Les méthodes de classification supervisées
Modèle ou Prototype
Deux approches possibles pour def́inir la règle de classification Y = g(X )
Chapitre 1
2015-2016
29 / 36
Approche basée sur un modèle
Chapitre 1
2015-2016
29 / 36
I
Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y )
Chapitre 1
2015-2016
29 / 36
I
F
Chapitre 1
Approche dite générative
2015-2016
29 / 36
I
F
F
Chapitre 1
Exemples : Analyse discriminante linéaire, bayésien naı̈f
2015-2016
29 / 36
I
F
F
I
Apprentissage direct de Loi(Y |X )
Chapitre 1
2015-2016
29 / 36
I
F
F
I
F
Chapitre 1
Approche dite discriminative
2015-2016
29 / 36
I
F
F
I
F
F
Chapitre 1
Exemple : Régression logistique
2015-2016
29 / 36
I
F
F
I
F
F
Approche de type prototype
Chapitre 1
2015-2016
29 / 36
I
F
F
I
F
F
I
Apprentissage direct de la règle de classification Y = g(X )
Chapitre 1
2015-2016
29 / 36
I
F
F
I
F
F
I
I
Exemple : K-plus proches voisins, arbres de décisions, forêts aléatoires,
etc.
Chapitre 1
2015-2016
29 / 36
Paramétrique ou non
Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y
les probabilités à posteriori
P[Y = k|X = x ]
Chapitre 1
2015-2016
30 / 36
P[Y = k|X = x ]
Approche paramétrique
Chapitre 1
2015-2016
30 / 36
P[Y = k|X = x ]
I Régression logistique: Y = {0, 1} et
P[Y = 1|X = x ] =
Chapitre 1
exp(X T β)
1 + exp(X T β)
2015-2016
30 / 36
P[Y = k|X = x ]
P[Y = 1|X = x ] =
I
exp(X T β)
1 + exp(X T β)
Analyse discriminante:
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
et
f (x |Y = k) =
Chapitre 1
1
1
exp(− (x − µk )T Σk −1 (x − µk ))
2
(2π)p/2 |Σk |1/2
2015-2016
30 / 36
P[Y = k|X = x ]
P[Y = 1|X = x ] =
I
exp(X T β)
1 + exp(X T β)
Analyse discriminante:
f (x |Y = k)P(Y = k)
P(Y = k|X = x ) = PK
j=1 f (x |Y = j)P(Y = j)
et
f (x |Y = k) =
1
1
exp(− (x − µk )T Σk −1 (x − µk ))
2
(2π)p/2 |Σk |1/2
Estimation des paramètres sur l’échantillon d’apprentissage
Chapitre 1
2015-2016
30 / 36
Approche non paramétrique
Chapitre 1
2015-2016
31 / 36
I
Approche de type modèle avec estimation non paramétrique de
f (x |Y = k).
Par exemple estimée de Parzen
n
f (x0 |Y = k) =
1 X
Kλ (x0 , xi )
nλ i=1
où Kλ est un noyau donné, e.g. gaussien 1D
1
1
2
Kλ (x0 , x ) = √ exp − 2 (x0 − x )
2λ
2π
Chapitre 1
2015-2016
31 / 36
I
f (x |Y = k).
n
f (x0 |Y = k) =
1 X
Kλ (x0 , xi )
nλ i=1
1
1
2
Kλ (x0 , x ) = √ exp − 2 (x0 − x )
2λ
2π
I
Chapitre 1
2015-2016
31 / 36
I
f (x |Y = k).
n
f (x0 |Y = k) =
1 X
Kλ (x0 , xi )
nλ i=1
1
1
2
Kλ (x0 , x ) = √ exp − 2 (x0 − x )
2λ
2π
I
F
Chapitre 1
2015-2016
31 / 36
I
f (x |Y = k).
n
f (x0 |Y = k) =
1 X
Kλ (x0 , xi )
nλ i=1
1
1
2
Kλ (x0 , x ) = √ exp − 2 (x0 − x )
2λ
2π
I
F
F
Chapitre 1
etc.
2015-2016
31 / 36
I
f (x |Y = k).
n
f (x0 |Y = k) =
1 X
Kλ (x0 , xi )
nλ i=1
1
1
2
Kλ (x0 , x ) = √ exp − 2 (x0 − x )
2λ
2π
I
F
F
etc.
Toujours un un paramètre à choisir.
Chapitre 1
2015-2016
31 / 36
Une méthode simple
k plus proches voisins
Chapitre 1
2015-2016
32 / 36
Variables d’entrée réelles X ∈ Rp
Chapitre 1
2015-2016
32 / 36
règle de classification dans le cas d’une réponse binaire Y ∈ {0, 1}
X
X
g(X ) =1 si
Yi >
(1 − Yi )
Xi ∈Nk (X )
Xi ∈Nk (X )
=0 sinon
où Nk (X ) est un voisinage de X contenant uniquement les k plus proches
voisins de l’ensemble d’apprentissage
Chapitre 1
2015-2016
32 / 36
règle de classification dans le cas d’une réponse binaire Y ∈ {0, 1}
X
X
g(X ) =1 si
Yi >
(1 − Yi )
Xi ∈Nk (X )
Xi ∈Nk (X )
=0 sinon
où Nk (X ) est un voisinage de X contenant uniquement les k plus proches
voisins de l’ensemble d’apprentissage
Vote à la majorité parmi les k plus proches voisins du point x à classer
Chapitre 1
2015-2016
32 / 36
Exemple avec k = 15, p = 2
Chapitre 1
2015-2016
33 / 36
k=15
Chapitre 1
k=1
2015-2016
34 / 36
Pour appliquer cette méthode il faut fixer un paramètre : le nombre de
voisins k
Chapitre 1
2015-2016
35 / 36
voisins k
Une stratégie de choix du paramètre k
Chapitre 1
2015-2016
35 / 36
voisins k
I
Choisir un échantillon d’apprentissage et un échantillon test
Chapitre 1
2015-2016
35 / 36
voisins k
I
I
Faire varier k
Chapitre 1
2015-2016
35 / 36
voisins k
I
I
I
Faire varier k
Pour chaque valeur de k calculer le taux d’erreur empirique de
prédiction des individus de l’échantillon test.
Chapitre 1
2015-2016
35 / 36
Chapitre 1
2015-2016
36 / 36

Apprentissage supervisé et théorie de la décision

Transcription

Documents pareils

secretariat-bureautique

UN CADRE EN MARKETING POUR LE HOLDING AL OMRANE

Offre emploi - Ingénieur(e) en génie mécanique

Barman - Eden Rock

DIRECTION GENERALE HandiCap`Anjou recherche pour son

Offre d`emploi

Offre d`emploi - Chef de division - travaux publics

pl cl fl bl gl

gestion d`un établissement de restauration