enoncé

Transcription

enoncé
TP 3: Fouille de Données
Jairo Cugliari
S1 2014 – 2015
1
k-PPV
Nous allons utiliser le jeu de données suivant :
id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
age
revenu étudiant
[20 - 30) haut
non
[20 - 30) haut
non
[30 - 40) haut
non
[40 - 50) moyen
non
[40 - 50)
bas
oui
[40 - 50)
bas
oui
[30 - 40)
bas
oui
[20 - 30) moyen
non
[20 - 30)
bas
oui
[40 - 50) moyen
oui
[20 - 30) moyen
oui
[30 - 40) moyen
non
[30 - 40) haut
oui
[40 - 50) moyen
non
credit rating
acceptable
excellent
acceptable
acceptable
acceptable
excellent
excellent
acceptable
acceptable
acceptable
excellent
excellent
acceptable
excellent
buy computer
non
non
oui
oui
oui
non
oui
non
oui
oui
oui
oui
oui
non
Le but est de prévoir l’achat d’un ordinateur en fonction des variables explicatives dans le jeu
de données.
Prévoir par k−PPV (avec 5 voisins) la valeur de la variable de réponse pour un étudiant de
22 ans avec un niveau de revenu moyen et un crédit score acceptable. Utiliser la similarité D
entre les observations i et i0 où
D(i, i0 ) =
4
X
wj I{xij 6=xi0 j } ,
(1)
j=1
et les poids sont wj = 1 si j = 1, 3, 4 et w2 = 2.
2
CART I
Après estimation d’un arbre de classification (avec minsplit = 5), le logiciel R produit la
prochaine sortie :
n= 14
node), split, n, loss, yval, (yprob)
* denotes terminal node
1) root 14 5 yes (0.3571429 0.6428571)
2) age=20s,40s 10 5 no (0.5000000 0.5000000)
4) student=no 5 1 no (0.8000000 0.2000000) *
5) student=yes 5 1 yes (0.2000000 0.8000000) *
3) age=30s 4 0 yes (0.0000000 1.0000000) *
1. Obtenir la sortie graphique (sur papier) associé à cette estimation.
2. Obtenir la sortie graphique avec R et vérifier votre réponse à la question 1.
1
3
CART II
Utiliser les données iris.
1. Diviser aléatoirement les données dans un échantillon de calibration et un autre de test
(utiliser 2/3 et 1/3 des observations respectivement).
2. Ajuster un CART sur l’échantillon de calibration. Utiliser un arbre de taille maximale.
3. À l’aide de l’algorithme de prunning, élaguer l’arbre de classification avec un complexité
de α = 0.2.
4. Évaluer la capacité prédictive du modèle estimée sur les données de test.
4
Courbe ROC
Les données sont dans le fichier chrun.csv dans http://eric.univ-lyon2.fr/˜jcugliari/
codes/
Le but est de prévoir la probabilité de départ d’un client pour une entreprise téléphonique.
1. Diviser l’ensemble de données dans un échantillon d’apprentissage et un échantillon test
(2/3 et 1/3 des données respectivement).
2. Utiliser un arbre de décision binaire en fixant la complexité de l’arbre (à l’aide du paramètre
cp) à 0.001.
3. Obtenir les prévision pour l’arbre ajusté dans le point 1.
4. Obtenir la matrice de confusion pour les prévisions obtenues.
5. Courbe ROC. Utiliser le package ROC pour obtenir la courbe ROC.
6. Forêts aléatoires. Utiliser le package randomForest pour obtenir un ajustement du
type forêt aléatoire. Prévoir la variable de réponse et obtenir la courbe ROC associée.
5
Arbre de régression
Nous utilisons le jeu de données diamonds de la librairie ggplot2. Le but est de prévoir le prix
d’un diamant à partir de ses attributs physiques.
1. Examiner la distribution de la variable de réponse. Proposez une transformation qui rend
la distribution plus symétrique.
2. Créer la variable fprice, une discrétisation à 5 classes de la variable price.
3. Diviser l’ensemble de données dans un échantillon d’apprentissage et un échantillon de
validation (75% et 25% respectivement).
4. Obtenir l’ajustement (fit reg) d’un arbre de régression pour la variable de réponse
transformé.
5. Obtenir l’ajustement (fit cla) d’un arbre de classification pour la variable de réponse
discrétisée.
6. Utiliser les paramètres de complexité optimale fournis par rpart pour élaguer les arbres
obtenus dans les points précédents.
7. Obtenir les prévision sur l’échantillon de validation pour les arbre ajustés dans le point 1.
8. Calculer l’erreur de prévision avec une fonction de perte quadratique sur l’échelle d’origine
de la variable price.
2