Énoncé du travail personnel

Transcription

Énoncé du travail personnel
Data Warehousing & Data Mining
Travaux Pratiques à Mons
Jef Wijsen
Année académique 2016-2017
1
Résumé
Chaque étudiant fait les exercices décrits ci-après et rédige un rapport sur les résultats obtenus.
Les étudiants qui suivent la version “courte” du cours (i.e., 20 heures de théorie, 10 heures de travaux pratiques) peuvent se limiter aux exercices mentionnés dans la section 2.1.
Il se peut que l’examen écrit contienne une question pour vérifier votre familiarité avec l’interface Weka.
2
2.1
Exercices
Tutoriel 17.1–17.4
Suivre le chapitre 17 de [WFH11]. Répondre aux questions suivantes.
— Ex. 17.1.9, Ex. 17.1.10 ;
— Ex. 17.2.4, Ex. 17.2.5, Ex. 17.2.6, Ex. 17.2.7, Ex. 17.2.8, Ex. 17.2.9, Ex. 17.2.10, Ex. 17.2.11 ;
— Ex. 17.3.1, Ex. 17.3.2, Ex. 17.3.3, Ex. 17.3.4, Ex. 17.3.5, Ex. 17.3.6, Ex. 17.3.7, Ex. 17.3.8, Ex. 17.3.9,
Ex. 17.3.10, Ex. 17.3.11 ;
— Ex. 17.4.1, Ex. 17.4.2, Ex. 17.4.3, Ex. 17.4.4, Ex. 17.4.8.
2.2
Tutoriel 17.5
Répondre aux questions suivantes.
— Ex. 17.5.1, Ex. 17.5.4, Ex. 17.5.6,
2.3
Travail libre
Chercher sur le web un problème de classification. Le site http://archive.ics.uci.edu/ml/
datasets.html contient notamment 262 jeux de données pour la classification.
Faire connaître le problème de votre choix à [email protected] et attendre un courriel de
confirmation. Il se peut que je vous demande de changer votre choix, par exemple, au cas où le même
problème avait déjà été choisi par un autre étudiant.
Les jeux de données suivants ne peuvent pas être choisis : les jeux de données fournis dans Weka, Abalone,
Acute Inflammations, Adult, Arrhythmia, Auto MPG, Balloons, Bank Marketing, Banknote Authentication, Blood Transfusion Service Center, Breast Cancer Wisconsin (Original), Breast Tissue, Car Evaluation,
Chess, Connect-4, Contraceptive Method Choice, Credit Approval, Cylinder Bands, Dermatology, Detect
1
Malicious Executable (AntiVirus), Diabetes, Ecoli, Energy Efficiency, Fertility, Flags, Haberman’s Survival,
Heart Disease, Image Segmentation, Internet Advertisements, Leaf, Letter Recognition, MAGIC Gamma Telescope, Mammographic Mass, Mushrooms, Nursery, Occupancy detection, Parkinson, Phishing Websites,
Pima Indians Diabetes, Poker+Hand, Primary tumor, Qualitative_Bankruptcy, Seeds, Seismic-Bumps, SMS
Spam Collection, Spambase, Statlog (Hearth), Statlog (Shuttle), Student Alcohol Consumption, Student
Performance, Teaching Assistant Evaluation, Thyroid Disease, Thoracic Surgery, Tic-Tac-Toe Endgame,
User Knowledge Modeling, Vertebral Column, Wine Quality, Wine, Yeast.
Résoudre votre problème de classification avec trois algorithmes différents. Comparer la qualité prédictive
en utilisant les méthodes (test set, cross validation. . .) et statistiques (confusion matrix, recall, precision,
F-measure, accuracy, ROC curve, AUC. . .) qui sont appropriées pour votre problème. Détailler les calculs
nécessaires pour savoir si les différences observées sont significatives (voir section 4.6 de [TSK05]).
Interpréter les résultats.
Votre rapport introduira brièvement votre problème de classification et présentera les caractéristiques du jeu
de données. Ensuite, le rapport expliquera la démarche suivie. Finalement, le rapport détaillera et interprètera
les résultats obtenus.
3
Remise du rapport
Une version électronique du rapport doit être déposée sur la plateforme Moodle au plus tard le dimanche,
14 mai 2017 à 23H55. Le nom du fichier est votre nom de famille. Le format du ficher est PDF. Donc, un
étudiant qui s’appelle Jean Dupont déposera un fichier dupont.pdf.
Une version papier doit être déposée dans mon bureau (Pentagone, 2E17) ou mon casier (dans la “cuisine”
proche de mon bureau) au plus tard le vendredi, 19 mai 2017.
Les informations contenues dans la version électronique et la version papier doivent être identiques.
Toute collaboration éventuelle pour la partie “tutoriel” doit être clairement mentionnée à la première page
du rapport.
4
Contact
Suivre le cours dans Moodle. N’hésitez pas à contacter [email protected] en cas de questions.
Références
[TSK05] Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. Introduction to Data Mining. AddisonWesley, 2005.
[WFH11] Ian H. Witten, Eibe Frank, and Mark A. Hall. Data Mining : Practical Machine Learning Tools
and Techniques. Elsevier, 3rd edition, 2011.
2

Documents pareils