enoncé
Transcription
enoncé
TP 3: Fouille de Données Jairo Cugliari S1 2014 – 2015 1 k-PPV Nous allons utiliser le jeu de données suivant : id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 age revenu étudiant [20 - 30) haut non [20 - 30) haut non [30 - 40) haut non [40 - 50) moyen non [40 - 50) bas oui [40 - 50) bas oui [30 - 40) bas oui [20 - 30) moyen non [20 - 30) bas oui [40 - 50) moyen oui [20 - 30) moyen oui [30 - 40) moyen non [30 - 40) haut oui [40 - 50) moyen non credit rating acceptable excellent acceptable acceptable acceptable excellent excellent acceptable acceptable acceptable excellent excellent acceptable excellent buy computer non non oui oui oui non oui non oui oui oui oui oui non Le but est de prévoir l’achat d’un ordinateur en fonction des variables explicatives dans le jeu de données. Prévoir par k−PPV (avec 5 voisins) la valeur de la variable de réponse pour un étudiant de 22 ans avec un niveau de revenu moyen et un crédit score acceptable. Utiliser la similarité D entre les observations i et i0 où D(i, i0 ) = 4 X wj I{xij 6=xi0 j } , (1) j=1 et les poids sont wj = 1 si j = 1, 3, 4 et w2 = 2. 2 CART I Après estimation d’un arbre de classification (avec minsplit = 5), le logiciel R produit la prochaine sortie : n= 14 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 14 5 yes (0.3571429 0.6428571) 2) age=20s,40s 10 5 no (0.5000000 0.5000000) 4) student=no 5 1 no (0.8000000 0.2000000) * 5) student=yes 5 1 yes (0.2000000 0.8000000) * 3) age=30s 4 0 yes (0.0000000 1.0000000) * 1. Obtenir la sortie graphique (sur papier) associé à cette estimation. 2. Obtenir la sortie graphique avec R et vérifier votre réponse à la question 1. 1 3 CART II Utiliser les données iris. 1. Diviser aléatoirement les données dans un échantillon de calibration et un autre de test (utiliser 2/3 et 1/3 des observations respectivement). 2. Ajuster un CART sur l’échantillon de calibration. Utiliser un arbre de taille maximale. 3. À l’aide de l’algorithme de prunning, élaguer l’arbre de classification avec un complexité de α = 0.2. 4. Évaluer la capacité prédictive du modèle estimée sur les données de test. 4 Courbe ROC Les données sont dans le fichier chrun.csv dans http://eric.univ-lyon2.fr/˜jcugliari/ codes/ Le but est de prévoir la probabilité de départ d’un client pour une entreprise téléphonique. 1. Diviser l’ensemble de données dans un échantillon d’apprentissage et un échantillon test (2/3 et 1/3 des données respectivement). 2. Utiliser un arbre de décision binaire en fixant la complexité de l’arbre (à l’aide du paramètre cp) à 0.001. 3. Obtenir les prévision pour l’arbre ajusté dans le point 1. 4. Obtenir la matrice de confusion pour les prévisions obtenues. 5. Courbe ROC. Utiliser le package ROC pour obtenir la courbe ROC. 6. Forêts aléatoires. Utiliser le package randomForest pour obtenir un ajustement du type forêt aléatoire. Prévoir la variable de réponse et obtenir la courbe ROC associée. 5 Arbre de régression Nous utilisons le jeu de données diamonds de la librairie ggplot2. Le but est de prévoir le prix d’un diamant à partir de ses attributs physiques. 1. Examiner la distribution de la variable de réponse. Proposez une transformation qui rend la distribution plus symétrique. 2. Créer la variable fprice, une discrétisation à 5 classes de la variable price. 3. Diviser l’ensemble de données dans un échantillon d’apprentissage et un échantillon de validation (75% et 25% respectivement). 4. Obtenir l’ajustement (fit reg) d’un arbre de régression pour la variable de réponse transformé. 5. Obtenir l’ajustement (fit cla) d’un arbre de classification pour la variable de réponse discrétisée. 6. Utiliser les paramètres de complexité optimale fournis par rpart pour élaguer les arbres obtenus dans les points précédents. 7. Obtenir les prévision sur l’échantillon de validation pour les arbre ajustés dans le point 1. 8. Calculer l’erreur de prévision avec une fonction de perte quadratique sur l’échelle d’origine de la variable price. 2