Énoncé Devoir 3

Transcription

Énoncé Devoir 3

Apprentissage et reconnaissance (GIF-4101 / GIF-7005)
Département de génie électrique et de génie informatique
Hiver 2013
Devoir 3
Instructions : – GIF-4101 : Le devoir est réalisé en équipe de deux à trois étudiants.
– GIF-7005 : Le devoir est réalisé individuellement.
– Utilisez Matlab et PRTools autant que possible.
– Remise : copie papier du rapport durant le cours du mercredi.
– Date limite : au plus tard le mercredi 10 avril, à 9h30,
Pondération : Ce devoir compte pour 5% de la note finale.
1. Classement avec les k-plus proches voisins (5pt)
Voici deux résultats classiques sur le classement avec les k-plus proches voisins (k-PPV) :
– Lorsque l’on utilise un classifieur selon le plus proche voisin (k = 1) et que l’on a un ensemble de prototypes de très grande taille (N → ∞), le taux d’erreur de classement espéré
∗
(E(E1−PPV (x))) est borné par deux fois le taux d’erreur bayésien optimal (EBayes
):
∗
lim E(E1−PPV (x)) ≤ 2 EBayes
.
N →∞
– Lorsque l’on fait du classement avec les k-plus proches voisins, que l’on a un ensemble de
prototypes de très grande taille (N → ∞), que l’on utilise un très grand nombre de voisins
(k → ∞), mais que le nombre de voisins est significativement plus petit que le nombre de
prototypes (k N ), alors le taux d’erreur classement espéré (E(Ek−PPV (x))) tend vers le taux
∗
d’erreur bayésien optimal (EBayes
):
∗
lim lim E(Ek−PPV (x)) = EBayes
k→∞ N →∞
avec k N.
∗
) comme étant le taux d’erreur obtenu avec un
On définit le taux d’erreur bayésien optimal (EBayes
classifieur bayésien pour lequel on connaı̂t parfaitement les véritables distributions des données.
(a) Expliquez clairement le raisonnement menant aux deux résultats énoncés ci-haut avec vos
propres mots, mais en faisant usage de formalismes mathématiques lorsque c’est possible.
Indices :
– Vous pouvez considérer le taux d’erreur de classement espéré comme étant égal à la probabilité d’un mauvais classement d’une donnée particulière avec le classifieur selon les
k-PPV.
– Vous n’avez pas besoin de développer les équations des lois de probabilités des données
par classe pour répondre à cette question. Vous n’avez qu’à raisonner sur l’issue du vote
selon les k-PPV, en utilisant la probabilité de classe de chacun des plus proches voisins
obtenus.
– Pour simplifier les développements, mais sans perdre de généralité, vous pouvez limiter
vos explications au cas à deux classes.
1
(b) À l’aide de simulations numériques, illustrez par une figure les deux résultats présentés en
préambule.
Voici comment vous devez vous y prendre pour réaliser cette figure :
– Générez des données selon deux classes, en une dimension. Les densités de probabilités
de chaque classe suivent une loi normale. La variance σ 2 de ces densités est la même pour
les deux classes et est fixée à une valeur pour toutes les expériences. Les probabilités a
priori sont également les mêmes pour les deux classes.
– Les différentes valeurs pour chaque courbe de la figure sont obtenues en faisant varier
la distance entre les deux moyennes µ1 et µ2 , soit entre une valeur de distance pratiquement nulle jusqu’à une distance correspondant à plusieurs fois la valeur de l’écart-type σ.
Générer des jeux de données comprenant quelques milliers d’échantillons par classe.
– L’abscisse correspond au taux d’erreur bayésien optimal, qui est calculé analytiquement
pour les différentes valeurs de moyennes µ1 et µ2 et d’écart-type σ utilisées pour générer
les données.
– L’ordonnée correspond au taux d’erreur de classement obtenu avec les k-plus proches
voisins.
– Tracez plusieurs courbes en faisant varier le nombre de voisins utilisés pour faire le classement, soit d’un voisin (k = 1) jusqu’à quelques dizaines.
Dans votre rapport, présentez la figure obtenue et annexez votre code Matlab que vous avez
utilisé pour la générer. Vous devriez normalement obtenir une figure similaire à ce qui suit
(qui a été générée avec 5000 données par classe).
Taux d’erreur de classement
0.5
0.4
0.3
0.2
Ebayes
k=1
k=3
k=11
k=23
k=57
k=101
0.1
0
0
0.05
0.1
0.15
0.2
2
0.25
Ebayes
0.3
0.35
0.4
0.45
0.5
2. Discriminants linéaires (10pt)
Soit un discriminant linéaire, avec lequel le classement est effectué selon :
C1 h(x|w,w0 ) ≥ 0
T
t
h(x|w,w0 ) = w x + w0 , x ∈
.
C2
autrement
On effectue un entraı̂nement avec une descente du gradient basée sur le critère d’erreur suivant :
1 X [rt − h(xt |w,w0 )]2
E(w,w0 |X ) =
,
2 t
kxt k2
x ∈Y
où rt ∈ {−1,1} et Y est l’ensemble des données de X mal classées,
Y = {xt ∈ X | rt h(xt |w,w0 ) ≤ 0}.
Si l’ensemble Y est vide, alors E(w,w0 |X ) = 0.
Soit les jeux de données suivants :
– Synthétique : jeu de 1000 données synthétiques en deux classes, représentées en deux dimensions.
http://wcours.gel.ulaval.ca/2013/h/GIF4101/default/6travaux/synthetique.csv
– Iris de Fisher : jeu de 150 données pour l’identification d’iris, avec données en quatre dimensions
et trois classes.
http://wcours.gel.ulaval.ca/2013/h/GIF4101/default/6travaux/iris.csv
– Haberman’s survival : jeu de 306 données organisé en deux classes, soit une survie supérieure
à 5 ans (classe 1) ou un décès dans les cinq premières années (classe 2) de patientes ayant eux
une chirurgie pour traiter un cancer du sein, comprenant de 3 mesures numériques.
http://wcours.gel.ulaval.ca/2013/h/GIF4101/default/6travaux/haberman.csv
Effectuez les opérations suivantes.
(a) Donnez le développement mathématique complet des équations permettant d’effectuer la
mise à jour des poids w et w0 par descente du gradient, selon le critère d’erreur proposé.
(b) Implémentez un mapping PRTools correspondant à ce discriminant linéaire. Incluez le code
Matlab de votre mapping dans le rapport.
(c) Testez la performance de ce discriminant linéaire sur les jeux de données synthétique, des
Iris de Fishier et Haberman’s survival, avec une validation croisée à trois plis. Pour le jeu des
Iris de Fisher, qui comporte trois classes, utilisez une approche un contre tous pour faire du
classement multi classes avec des discriminants linéaires.
(d) Comparez les résultats avec les discriminants linéaires suivants :
– Méthode paramétrique multinormale (classifieur LDC de PRTools) ;
– Analyse discriminante linéaire (FISHERC) ;
– Descente du gradient avec le critère du perceptron (PERLC) ;
– Classement logistique (LOGLC).
Pour cette sous-question, limitez-vous à :
– Rapporter les paramètres d’entraı̂nement utilisés pour chacun des algorithmes, s’il y a lieu ;
– Rapporter les taux d’erreur sur les ensembles d’entraı̂nement et de test dans un tableau
synthèse ;
– Tracer des graphiques comparatifs des régions de décision des différents classifieurs testés
pour le jeu de données synthétique ;
– Discuter brièvement des résultats obtenus (performance en entraı̂nement, performance en
généralisation et temps de calcul).
3
3. Sélection de prototypes (5pt)
Soit les méthodes de sélection de prototypes pour le classement par la méthode des k-plus proches
voisins (k-PPV), telles que présentées en classe.
(a) Implantez l’algorithme d’édition de Wilson dans une fonction Matlab ayant la signature suivante.
S = EDWILSON(A,K,D)
Les paramètres d’entrée et sortie sont les suivants.
– A : dataset PRTools utilisé pour effectuer la sélection.
– K : nombre de voisins utilisés durant l’édition de Wilson.
– D : matrice des distances entre les données de A (optionnel, par défaut la distance euclidienne est utilisée)
– S : dataset PRTools comprenant les données de A sélectionnées par l’édition de Wilson.
Donnez le code source de votre implantation de cette fonction dans votre rapport.
(b) Implantez l’algorithme de la condensation de Hart dans une fonction Matlab ayant la signature suivante.
S = CONHART(A,D)
Les paramètres d’entrée et sortie sont les suivants.
– A : dataset PRTools utilisé pour effectuer la sélection.
– D : matrice des distances entre les données de A (optionnel, par défaut la distance euclidienne est utilisée)
– S : dataset PRTools comprenant les données de A sélectionnées par la condensation de
Hart.
Donnez le code source de votre implantation de cette fonction dans votre rapport.
(c) Testez votre implantation des fonctions d’édition de Wilson et de condensation de Hart sur
les jeux de données de la question précédente (synthétique, Iris de Fisher et Haberman’s
survival), en utilisant les configurations suivantes.
i. Édition de Wilson avec k = 3 voisins avec une distance euclidienne (sans normalisation).
ii. Condensation de Hart avec une distance euclidienne (sans normalisation).
iii. Édition de Wilson avec k = 3 voisins suivi d’une condensation de Hart, les deux avec
une distance euclidienne (sans normalisation).
Pour le calcul du taux d’erreur, rapportez le taux d’erreur de classement en leave-one-out
avec un classifieur de type k-PPV sur tout le jeu de données, en utilisant les prototypes
sélectionnés comme données de référence, en employant le nombre de voisins et la distance
correspondant à la configuration testée. Le taux de sélection de prototypes correspond au
ratio entre le nombre de prototypes sélectionnés et le nombre d’observations dans le jeu de
données.
Dans votre rapport, contentez-vous de rapporter les taux d’erreur de classement et le taux
de sélection de prototypes dans un tableau et de tracer quelques graphiques de régions de
décision. Discutez brièvement des résultats obtenus.
26/03/2013
CG
4

Énoncé Devoir 3

Transcription

Documents pareils

Voisins-le-Bretonneux se mobilise !

bruit de voisinage

fiche gran torino

LE 23 MAI, C`EST LA FÊTE DES VOISINS !

www.exercices.fr.st Utilisez le-la-les-l`-lui-leur

Accès libre dans la limite des places disponibles de

MENTION COMPLÉMENTAIRE« Maquettes et Prototypes »

Sous-traitance - TRA