enoncé

Transcription

enoncé

TP 3: Fouille de Données
Jairo Cugliari
S1 2014 – 2015
1
k-PPV
Nous allons utiliser le jeu de données suivant :
id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
age
revenu étudiant
[20 - 30) haut
non
[20 - 30) haut
non
[30 - 40) haut
non
[40 - 50) moyen
non
[40 - 50)
bas
oui
[40 - 50)
bas
oui
[30 - 40)
bas
oui
[20 - 30) moyen
non
[20 - 30)
bas
oui
[40 - 50) moyen
oui
[20 - 30) moyen
oui
[30 - 40) moyen
non
[30 - 40) haut
oui
[40 - 50) moyen
non
credit rating
acceptable
excellent
acceptable
acceptable
acceptable
excellent
excellent
acceptable
acceptable
acceptable
excellent
excellent
acceptable
excellent
buy computer
non
non
oui
oui
oui
non
oui
non
oui
oui
oui
oui
oui
non
Le but est de prévoir l’achat d’un ordinateur en fonction des variables explicatives dans le jeu
de données.
Prévoir par k−PPV (avec 5 voisins) la valeur de la variable de réponse pour un étudiant de
22 ans avec un niveau de revenu moyen et un crédit score acceptable. Utiliser la similarité D
entre les observations i et i0 où
D(i, i0 ) =
4
X
wj I{xij 6=xi0 j } ,
(1)
j=1
et les poids sont wj = 1 si j = 1, 3, 4 et w2 = 2.
2
CART I
Après estimation d’un arbre de classification (avec minsplit = 5), le logiciel R produit la
prochaine sortie :
n= 14
node), split, n, loss, yval, (yprob)
* denotes terminal node
1) root 14 5 yes (0.3571429 0.6428571)
2) age=20s,40s 10 5 no (0.5000000 0.5000000)
4) student=no 5 1 no (0.8000000 0.2000000) *
5) student=yes 5 1 yes (0.2000000 0.8000000) *
3) age=30s 4 0 yes (0.0000000 1.0000000) *
1. Obtenir la sortie graphique (sur papier) associé à cette estimation.
2. Obtenir la sortie graphique avec R et vérifier votre réponse à la question 1.
1
3
CART II
Utiliser les données iris.
1. Diviser aléatoirement les données dans un échantillon de calibration et un autre de test
(utiliser 2/3 et 1/3 des observations respectivement).
2. Ajuster un CART sur l’échantillon de calibration. Utiliser un arbre de taille maximale.
3. À l’aide de l’algorithme de prunning, élaguer l’arbre de classification avec un complexité
de α = 0.2.
4. Évaluer la capacité prédictive du modèle estimée sur les données de test.
4
Courbe ROC
Les données sont dans le fichier chrun.csv dans http://eric.univ-lyon2.fr/˜jcugliari/
codes/
Le but est de prévoir la probabilité de départ d’un client pour une entreprise téléphonique.
1. Diviser l’ensemble de données dans un échantillon d’apprentissage et un échantillon test
(2/3 et 1/3 des données respectivement).
2. Utiliser un arbre de décision binaire en fixant la complexité de l’arbre (à l’aide du paramètre
cp) à 0.001.
3. Obtenir les prévision pour l’arbre ajusté dans le point 1.
4. Obtenir la matrice de confusion pour les prévisions obtenues.
5. Courbe ROC. Utiliser le package ROC pour obtenir la courbe ROC.
6. Forêts aléatoires. Utiliser le package randomForest pour obtenir un ajustement du
type forêt aléatoire. Prévoir la variable de réponse et obtenir la courbe ROC associée.
5
Arbre de régression
Nous utilisons le jeu de données diamonds de la librairie ggplot2. Le but est de prévoir le prix
d’un diamant à partir de ses attributs physiques.
1. Examiner la distribution de la variable de réponse. Proposez une transformation qui rend
la distribution plus symétrique.
2. Créer la variable fprice, une discrétisation à 5 classes de la variable price.
3. Diviser l’ensemble de données dans un échantillon d’apprentissage et un échantillon de
validation (75% et 25% respectivement).
4. Obtenir l’ajustement (fit reg) d’un arbre de régression pour la variable de réponse
transformé.
5. Obtenir l’ajustement (fit cla) d’un arbre de classification pour la variable de réponse
discrétisée.
6. Utiliser les paramètres de complexité optimale fournis par rpart pour élaguer les arbres
obtenus dans les points précédents.
7. Obtenir les prévision sur l’échantillon de validation pour les arbre ajustés dans le point 1.
8. Calculer l’erreur de prévision avec une fonction de perte quadratique sur l’échelle d’origine
de la variable price.
2

enoncé

Transcription

Documents pareils

Fernando Gonzalez-Jimenez - Iramis

Impossible à dire de Patricia Reilly Giff Un vrai coup de coeur! C`est

Concours international de danse classique et jazz

Banque PT Mathématiques - Oral 1, 30 min au tableau. Pour l`X, l

Retirement savings data – Data Accuracy:

Désordre mathématique contre déraison humaine

Ne t`en fais pas Quand ton fardeau devient trop lourd Quand le

Mise `a niveau en R 1 Statistiques descriptives (4 points) 2 Tests (3

revues n°1

Inscription au Master II Parcours Préparation `a l`Agrégation de

1 Exercice 1 : Offre de travail et imposition (4 points)