le classifieur naïf de Bayes DEFINITIONS
Transcription
le classifieur naïf de Bayes DEFINITIONS
le classifieur naïf de Bayes DEFINITIONS : la classification naïve bayésienne C’est un type de classification Bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayésien naïf, ou classifieur naïf de Bayes, appartenant à la famille des classifieurs linéaires (dont le rôle est de classer dans des groupes (des classes) les échantillons qui ont des propriétés similaires, mesurées sur des observations). le classifieur naïf de Bayes Un classifieur naïf de Bayes est un classifieur probabiliste basé sur l’application du théorème de Bayes avec l’hypothèse naïve, c’est-à-dire que les variables explicatives (Xi) sont supposées indépendantes conditionnellement à la variable cible (C). Malgré cette hypothèse forte, ce classifieur s’est avéré très efficace sur de nombreuses applications réelles et est souvent utilisé sur les flux de données pour la classification supervisée. Le classifieur naïf de Bayes nécessite simplement en entrée l’estimation des probabilités conditionnelles par variable P(XijC). 1. Construction d’un classifieur naïf de bayes Premiere methode : On sépare l’ensemble d’entraînement en m sous-ensembles contenant chacun tous les points d’une même classe. On entraîne un estimateur de densité sur chacun : On détermine les probabilités à priori de chaque classe (par ex. en comptant leurs proportions relatives dans l’ensemble d’apprentissage) On applique la règle de Bayes pour obtenir la probabilité à postériori des classes au point x. On choisit la plus probable. Dans le classifieur de Bayes Naïf, on suppose, pour chaque classe c ∈ {1, .., m} que, étant donné c, les composantes de X sont indépendantes : Il suffit donc de modéliser des densités univariées, les ce qui est une tâche facile (univariée == dimension 1: pas de fléau de la dimensionalité; les méthodes de type histogramme ou Parzen fonctionnent plutôt bien). On construit ensuite un classifieur de Bayes à partir des estimateurs ainsi obtenus. Deuxieme methode : On estime la probabilité jointe P(X,Y). On calcule la probabilité conditionnelle de la classe c : PS : les proba de classe (conditionelles à x) sont proportionnelles aux probas jointes. Le dénominateur est une simple normalisation pour qu’elles somment à 1. Cette technique est utilisable du moment qu’on n’a pas un nombre gigantesque de classes. Exemple d’application Problème: classifier chaque personne en tant qu'individu du sexe masculin ou féminin, selon les caractéristiques mesurées. Les caractéristiques comprennent la taille, le poids, et la pointure. Entrainement : On dispose de l'ensemble de données d'entraînement suivant : Poids (kg) Pointure (cm) masculin 182 81.6 30 masculin 180 86.2 28 masculin 170 77.1 30 masculin 180 74.8 25 féminin 152 45.4 15 féminin 168 68.0 20 féminin 165 59.0 18 féminin 175 68.0 23 Sexe Taille (cm) Le classifieur créé à partir de ces données d'entraînement, utilisant une hypothèse de distribution Gaussienne pour les lois de probabilités des caractéristiques, est le suivant : Variance (taille) Espérance (poids) Variance (poids) Espérance (pointure) Variance (pointure) masculin 178 2.9333e+01 79.92 2.5476e+01 28.25 5.5833e+00 féminin 9.2666e+01 60.1 1.1404e+02 19.00 1.1333e+01 Sexe Espérance (taille) 165 On suppose pour des raisons pratiques que les classes sont équiprobables, à savoir P(masculin) = P(féminin) = 0.5 (selon le contexte, cette hypothèse peut être inappropriée). Si l'on détermine P(C) d'après la fréquence des échantillons par classe dans l'ensemble de données d'entraînement, on aboutit au même résultat. TEST : Nous voulons classifier l'échantillon suivant en tant que masculin ou féminin : Sexe Taille (cm) Poids (kg) Pointure (cm) inconnu 183 59 20 Nous souhaitons déterminer quelle probabilité postérieure est la plus grande, celle que l'échantillon soit de sexe masculin, ou celle qu'il soit de sexe féminin. postérieure (masculin) = P(masculin)*P(taille|masculin)*P(poids|masculin)*P(pointure|masculin) / évidence postérieure (féminin) = P(féminin)*P(taille|féminin)*P(poids|féminin)*P(pointure|féminin) / évidence Le terme évidence (également appelé constante de normalisation) peut être calculé car la somme des postérieures vaut 1. évidence = P(masculin)*P(taille|masculin)*P(poids|masculin)*P(pointure|masculin) + P(féminin)*P(taille|féminin)*P(poids|féminin)*P(pointure|féminin) Toutefois, on peut ignorer ce terme puisqu'il s'agit d'une constante positive (les lois normales sont toujours positives). Nous pouvons à présent déterminer le sexe de l'échantillon : P(masculin) = 0.5 P(taille|masculin) = 4.8102e-02 P(poids|masculin) = 1.4646e-05 P(pointure|masculin) = 3.8052e-4 Postérieure (numérateur) (masculin) = 1.3404e-10 P(féminin) = 0.5 P(taille|féminin) = 7.2146e-3 P(poids|féminin) = 3.7160e-2 P(pointure|féminin) = 1.1338e-1 Postérieure (numérateur) (féminin) = 1.5200e-05 Comme la postérieure féminin est supérieure à la postérieure masculine, l'échantillon est plus probablement de sexe féminin.