le classifieur naïf de Bayes DEFINITIONS

Transcription

le classifieur naïf de Bayes DEFINITIONS
le classifieur naïf de Bayes
DEFINITIONS :
la classification naïve bayésienne
C’est un type de classification Bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte
indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayésien naïf, ou classifieur naïf
de Bayes, appartenant à la famille des classifieurs linéaires (dont le rôle est de classer dans des groupes (des
classes) les échantillons qui ont des propriétés similaires, mesurées sur des observations).
le classifieur naïf de Bayes
Un classifieur naïf de Bayes est un classifieur probabiliste basé sur l’application du théorème de Bayes avec
l’hypothèse naïve, c’est-à-dire que les variables explicatives (Xi) sont supposées indépendantes
conditionnellement à la variable cible (C). Malgré cette hypothèse forte, ce classifieur s’est avéré très efficace
sur de nombreuses applications réelles et est souvent utilisé sur les flux de données pour la classification
supervisée. Le classifieur naïf de Bayes nécessite simplement en entrée l’estimation des probabilités
conditionnelles par variable P(XijC).
1. Construction d’un classifieur naïf de bayes
Premiere methode :
 On sépare l’ensemble d’entraînement en m sous-ensembles contenant chacun tous les points d’une
même classe.
 On entraîne un estimateur de densité sur chacun :

On détermine les probabilités à priori de chaque classe (par ex. en comptant leurs proportions
relatives dans l’ensemble d’apprentissage)

On applique la règle de Bayes pour obtenir la probabilité à postériori des classes au point x.

On choisit la plus probable.
Dans le classifieur de Bayes Naïf, on suppose, pour chaque classe c ∈ {1, .., m} que, étant donné c, les
composantes de X sont indépendantes :
Il suffit donc de modéliser des densités univariées, les ce qui est une tâche facile (univariée == dimension 1: pas de fléau de la
dimensionalité; les méthodes de type histogramme ou Parzen fonctionnent plutôt bien).
On construit ensuite un classifieur de Bayes à partir des estimateurs
ainsi obtenus.
Deuxieme methode :


On estime la probabilité jointe P(X,Y).
On calcule la probabilité conditionnelle de la classe c :
PS : les proba de classe (conditionelles à x) sont proportionnelles aux probas jointes. Le dénominateur est
une simple normalisation pour qu’elles somment à 1.
 Cette technique est utilisable du moment qu’on n’a pas un nombre gigantesque de classes.
Exemple d’application
Problème: classifier chaque personne en tant qu'individu du sexe masculin ou féminin, selon les
caractéristiques mesurées. Les caractéristiques comprennent la taille, le poids, et la pointure.
Entrainement :
On dispose de l'ensemble de données d'entraînement suivant :
Poids
(kg)
Pointure (cm)
masculin 182
81.6
30
masculin 180
86.2
28
masculin 170
77.1
30
masculin 180
74.8
25
féminin
152
45.4
15
féminin
168
68.0
20
féminin
165
59.0
18
féminin
175
68.0
23
Sexe
Taille
(cm)
Le classifieur créé à partir de ces données d'entraînement, utilisant une hypothèse de distribution
Gaussienne pour les lois de probabilités des caractéristiques, est le suivant :
Variance
(taille)
Espérance
(poids)
Variance
(poids)
Espérance
(pointure)
Variance
(pointure)
masculin 178
2.9333e+01
79.92
2.5476e+01
28.25
5.5833e+00
féminin
9.2666e+01
60.1
1.1404e+02
19.00
1.1333e+01
Sexe
Espérance
(taille)
165
On suppose pour des raisons pratiques que les classes sont équiprobables, à savoir P(masculin) = P(féminin)
= 0.5 (selon le contexte, cette hypothèse peut être inappropriée). Si l'on détermine P(C) d'après la fréquence
des échantillons par classe dans l'ensemble de données d'entraînement, on aboutit au même résultat.
TEST :
Nous voulons classifier l'échantillon suivant en tant que masculin ou féminin :
Sexe
Taille (cm) Poids (kg) Pointure (cm)
inconnu 183
59
20
Nous souhaitons déterminer quelle probabilité postérieure est la plus grande, celle que l'échantillon soit de
sexe masculin, ou celle qu'il soit de sexe féminin.
postérieure (masculin) = P(masculin)*P(taille|masculin)*P(poids|masculin)*P(pointure|masculin) / évidence
postérieure (féminin) = P(féminin)*P(taille|féminin)*P(poids|féminin)*P(pointure|féminin) / évidence
Le terme évidence (également appelé constante de normalisation) peut être calculé car la somme
des postérieures vaut 1.
évidence = P(masculin)*P(taille|masculin)*P(poids|masculin)*P(pointure|masculin) +
P(féminin)*P(taille|féminin)*P(poids|féminin)*P(pointure|féminin)
Toutefois, on peut ignorer ce terme puisqu'il s'agit d'une constante positive (les lois normales sont toujours
positives). Nous pouvons à présent déterminer le sexe de l'échantillon :
P(masculin) = 0.5
P(taille|masculin) = 4.8102e-02
P(poids|masculin) = 1.4646e-05
P(pointure|masculin) = 3.8052e-4
Postérieure (numérateur) (masculin) = 1.3404e-10
P(féminin) = 0.5
P(taille|féminin) = 7.2146e-3
P(poids|féminin) = 3.7160e-2
P(pointure|féminin) = 1.1338e-1
Postérieure (numérateur) (féminin) = 1.5200e-05
 Comme la postérieure féminin est supérieure à la postérieure masculine, l'échantillon est plus probablement
de sexe féminin.