TP4 - Ana Karina Fermin Rodriguez

Transcription

TP4 - Ana Karina Fermin Rodriguez
Université Paris Ouest - Nanterre La Défense
Master2 ISEFAR Data Mining - Classification
CM et TP (Groupe 1) : Ana Karina FERMIN
Tp (Groupe 2) : Mélanie ZETLAOUI
TP4 : Méthodes linéaires pour la classification (2ème partie)
L’objectif ce TP est de faire la classification supervisée à l’aide de l’analyse discriminante
linéaire (linear discriminant analysis en anglais) et l’analyse discriminante quadratique (quadratic
discriminant analysis en anglais). Nous allons utiliser les fonctions lda et qda de la librairie MASS.
Exercice 1 Nous considérons les données iris (déjà étudié dans le TP1 et dans le TP2). Dans
cet exercice, adapter au besoin les commandes des TPs précédents.
1. Données :
(a) Utiliser la longueur et la largeur du pétale en faisant bien attention de considérer
cette fois-ci les trois types d’iris : iris setose, iris versicolor et iris virginica
(b) Taper la commande set.seed(1) puis construire les ensembles D; Dtrain et Dtest
(prendre 80% des données pour entrainer le classifieur et 20% pour estimer l’erreur).
2. Analyse discriminante linéaire et quadratique (ADL et ADQ) :
(a) Effectuer l’analyse discriminante linéaire (resp. quadratique) sur l’ensemble des
données d’apprentissage Dtrain grâce aux commandes
library(MASS)
qda_Dtrain = qda(Dtrain[,1:2],Dtrain[,3])
lda_Dtrain = lda(Dtrain[,1:2],Dtrain[,3])
(b) Visualiser les sorties de qda Dtrain et lda Dtrain puis donner les estimations des
proportions du mélange ainsi que des moyennes des composantes du mélange.
(c) Que font les deux commandes suivantes ?
predict(lda_Dtrain,c(3,2))$post; predict(lda_Dtrain,c(3,3))$class
(d) Que font les commandes suivantes ? (visualiser commande par commande).
predict(lda_Dtrain,c(0,0))$x ; lda_Dtrain$scaling
a=predict(lda_Dtrain,c(0,0))$x[1]; b=lda_Dtrain$scaling[1];c=lda_Dtrain$scaling[2]
L1= a + b*Grid[1,1] + c*Grid[1,2]; L2=predict(lda_Dtrain,Grid[1,1:2])$x[1]
Regarder les valeurs de L1 et L2. Pourquoi on obtient le même résultat ?
3. Frontières de décision : Commencer tout d’abord par tracer les trois ensembles de
points sur un même graphique (utiliser 3 couleurs différents). Ensuite, sur le même
graphique, tracer les frontières de classification obtenue par la méthode ADL (respectivement ADQ). Suggestion : adapter au besoin les commandes du TP3.
4. Taux d’erreur (avec Dtest) : Commencer par evaluer le classifieur dans tous les points
x de Dtest avec la méthode ADL et ADQ. Donner les taux d’erreurs obtenus par les
méthodes ADL et ADQ.
5. Estimer l’erreur par validation croisée (K-Fold cross validation). A vous de jouer !
1