TP4 - Ana Karina Fermin Rodriguez

Transcription

Université Paris Ouest - Nanterre La Défense
Master2 ISEFAR Data Mining - Classification
CM et TP (Groupe 1) : Ana Karina FERMIN
Tp (Groupe 2) : Mélanie ZETLAOUI
TP4 : Méthodes linéaires pour la classification (2ème partie)
L’objectif ce TP est de faire la classification supervisée à l’aide de l’analyse discriminante
linéaire (linear discriminant analysis en anglais) et l’analyse discriminante quadratique (quadratic
discriminant analysis en anglais). Nous allons utiliser les fonctions lda et qda de la librairie MASS.
Exercice 1 Nous considérons les données iris (déjà étudié dans le TP1 et dans le TP2). Dans
cet exercice, adapter au besoin les commandes des TPs précédents.
1. Données :
(a) Utiliser la longueur et la largeur du pétale en faisant bien attention de considérer
cette fois-ci les trois types d’iris : iris setose, iris versicolor et iris virginica
(b) Taper la commande set.seed(1) puis construire les ensembles D; Dtrain et Dtest
(prendre 80% des données pour entrainer le classifieur et 20% pour estimer l’erreur).
2. Analyse discriminante linéaire et quadratique (ADL et ADQ) :
(a) Effectuer l’analyse discriminante linéaire (resp. quadratique) sur l’ensemble des
données d’apprentissage Dtrain grâce aux commandes
library(MASS)
qda_Dtrain = qda(Dtrain[,1:2],Dtrain[,3])
lda_Dtrain = lda(Dtrain[,1:2],Dtrain[,3])
(b) Visualiser les sorties de qda Dtrain et lda Dtrain puis donner les estimations des
proportions du mélange ainsi que des moyennes des composantes du mélange.
(c) Que font les deux commandes suivantes ?
predict(lda_Dtrain,c(3,2))$post; predict(lda_Dtrain,c(3,3))$class
(d) Que font les commandes suivantes ? (visualiser commande par commande).
predict(lda_Dtrain,c(0,0))$x ; lda_Dtrain$scaling
a=predict(lda_Dtrain,c(0,0))$x[1]; b=lda_Dtrain$scaling[1];c=lda_Dtrain$scaling[2]
L1= a + b*Grid[1,1] + c*Grid[1,2]; L2=predict(lda_Dtrain,Grid[1,1:2])$x[1]
Regarder les valeurs de L1 et L2. Pourquoi on obtient le même résultat ?
3. Frontières de décision : Commencer tout d’abord par tracer les trois ensembles de
points sur un même graphique (utiliser 3 couleurs différents). Ensuite, sur le même
graphique, tracer les frontières de classification obtenue par la méthode ADL (respectivement ADQ). Suggestion : adapter au besoin les commandes du TP3.
4. Taux d’erreur (avec Dtest) : Commencer par evaluer le classifieur dans tous les points
x de Dtest avec la méthode ADL et ADQ. Donner les taux d’erreurs obtenus par les
méthodes ADL et ADQ.
5. Estimer l’erreur par validation croisée (K-Fold cross validation). A vous de jouer !
1

TP4 - Ana Karina Fermin Rodriguez

Transcription

Documents pareils

La direction du développement rural et de l`agriculture et le

Itinéraire d`aller Moldene - Indústria de Moldes, Lda départ de

Projet 2 : Classification supervisée : Analyse discriminante Table

Paiement du Lait - liste des laboratoires reconnus 6

LD Lines : muscler la ligne Le Havre - Portsmouth

Invitation_ODJ_commission Nut

GARDE-CORPS Autoportant

Actualités, Tests, Avant-premières, Astuces, Jeux vidéo PC

fiche de poste - Bas-Rhin

Info délits Plus