TP4 - Ana Karina Fermin Rodriguez
Transcription
TP4 - Ana Karina Fermin Rodriguez
Université Paris Ouest - Nanterre La Défense Master2 ISEFAR Data Mining - Classification CM et TP (Groupe 1) : Ana Karina FERMIN Tp (Groupe 2) : Mélanie ZETLAOUI TP4 : Méthodes linéaires pour la classification (2ème partie) L’objectif ce TP est de faire la classification supervisée à l’aide de l’analyse discriminante linéaire (linear discriminant analysis en anglais) et l’analyse discriminante quadratique (quadratic discriminant analysis en anglais). Nous allons utiliser les fonctions lda et qda de la librairie MASS. Exercice 1 Nous considérons les données iris (déjà étudié dans le TP1 et dans le TP2). Dans cet exercice, adapter au besoin les commandes des TPs précédents. 1. Données : (a) Utiliser la longueur et la largeur du pétale en faisant bien attention de considérer cette fois-ci les trois types d’iris : iris setose, iris versicolor et iris virginica (b) Taper la commande set.seed(1) puis construire les ensembles D; Dtrain et Dtest (prendre 80% des données pour entrainer le classifieur et 20% pour estimer l’erreur). 2. Analyse discriminante linéaire et quadratique (ADL et ADQ) : (a) Effectuer l’analyse discriminante linéaire (resp. quadratique) sur l’ensemble des données d’apprentissage Dtrain grâce aux commandes library(MASS) qda_Dtrain = qda(Dtrain[,1:2],Dtrain[,3]) lda_Dtrain = lda(Dtrain[,1:2],Dtrain[,3]) (b) Visualiser les sorties de qda Dtrain et lda Dtrain puis donner les estimations des proportions du mélange ainsi que des moyennes des composantes du mélange. (c) Que font les deux commandes suivantes ? predict(lda_Dtrain,c(3,2))$post; predict(lda_Dtrain,c(3,3))$class (d) Que font les commandes suivantes ? (visualiser commande par commande). predict(lda_Dtrain,c(0,0))$x ; lda_Dtrain$scaling a=predict(lda_Dtrain,c(0,0))$x[1]; b=lda_Dtrain$scaling[1];c=lda_Dtrain$scaling[2] L1= a + b*Grid[1,1] + c*Grid[1,2]; L2=predict(lda_Dtrain,Grid[1,1:2])$x[1] Regarder les valeurs de L1 et L2. Pourquoi on obtient le même résultat ? 3. Frontières de décision : Commencer tout d’abord par tracer les trois ensembles de points sur un même graphique (utiliser 3 couleurs différents). Ensuite, sur le même graphique, tracer les frontières de classification obtenue par la méthode ADL (respectivement ADQ). Suggestion : adapter au besoin les commandes du TP3. 4. Taux d’erreur (avec Dtest) : Commencer par evaluer le classifieur dans tous les points x de Dtest avec la méthode ADL et ADQ. Donner les taux d’erreurs obtenus par les méthodes ADL et ADQ. 5. Estimer l’erreur par validation croisée (K-Fold cross validation). A vous de jouer ! 1