A tutorial for cross-validation model with KNIME
Transcription
A tutorial for cross-validation model with KNIME
Université de Caen Basse-Normandie 1 2 novembre 2015 Département de Mathématiques et Mécanique Validation croisée avec KNIME Sommaire 1.1 1.2 1.3 1.4 1.5 1.6 Objectif . . . . . . . . . . Préparation des données Exploration . . . . . . . . Partitionnement . . . . . Modélisation . . . . . . . Evaluation d’un modèle . 1.6.1 Matrice de confusion . 1.6.2 K Validation croisée . 1.6.3 Courbe ROC . . . . . 1.7 Transfert du modèle . . . 1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 2 2 2 2 3 3 Objectif On utilse dans cet exercice le logiciel KNIME. Il se programme grâce à une interface graphique. L’installation est très facile, puisque sous Linux il suffit de décompresser l’archive. Il est assez proche de SAS Enterprise Miner. Figure 1 – WorkFlow De nombreux exemples sont disponibles. 1.2 Préparation des données 1. Depuis le dépot de noeud choir IO/Read/File Reader. Configuer ce noeud en indiquant l’url des données : http://www.math.unicaen.fr/~kauffmann/data/heart-c.csv et que le séparateur de données est un point virgule. Faire excécuter le noeud, puis consulter la table crée (menu clic-gauche). 2. Dépuis le dépot Data Views/Property, ajouter le noeud Color Manager. Lier le noeud File Reader au noeud Color Manager. Préciser la couleur verte pour la modalité <50 et la couleur rouge pour la modalité >50 de la variable num. 1.3 Exploration 1. Ajouter un noeud Statistics/Statistics. Le lier à la sortie du noeud Color Manager. Configuer ce noeud en ajoutant toutes la variables. Explorer les résultats des statistiques obtenues pour les variables quantitatives et qualitatives (nominal). http://www.math.unicaen.fr/~kauffman/cours 1 [email protected] Université de Caen Basse-Normandie 2 novembre 2015 Département de Mathématiques et Mécanique 2. Ajouter un noeud Statistics/Crosstab qui calcule des tables de contingences et test l’indépendance : sexe par num. Faire exécuter, faire afficher les résultats. 3. Ajouter un noeud Data View/Scatter Matrix Sélectionner des variables, visualiser le résultat. 1.4 Partitionnement Ajouter le noeud DataManipulation/Row/Transform/Partitioning et choisir un pourcentage de 70% pour la base d’apprentissage et de 40% pour la base (test et validation). Etudier les deux sorties de ce noeuds. 1.5 Modélisation 1. Ajouter un noeud Mining/Decision Tree/Decision Tree learner, le relier à la base d’apprentissage, puis le configurer la variable cible num. 2. Ajouter un noeud Mining/Decision Tree/Decision Tree Predictor. Relier la sortie du noeud Decision Tree Learner de couleur bleue (modèle) à l’entrée bleue de ce noeud. Relier la base de test à la deuxième entrée du noeud (triangle blanc données). Faire exécuter, examiner les résultats. Figure 2 – Arbre de décision 1.6 1.6.1 Evaluation d’un modèle Matrice de confusion Ajouter un noeud Mining/Scorer/scorer et le relier à la sortie du noeud de prédiction etudier la matrice de confusion. 1.6.2 K Validation croisée Dans cette partie on va réaliser une boucle sur les parties de la validation croisée dans le graphe des noeuds. 1. Ajouter un noeud Mining/Scorer/X-Partitioner{. C’est le début de la boucle. Le relier à la base de données complètes sortie du noeud Color Manager. Configuer ce noeud en précisant que l’on veut 10 parties. http://www.math.unicaen.fr/~kauffman/cours 2 [email protected] Université de Caen Basse-Normandie 2 novembre 2015 Département de Mathématiques et Mécanique 2. Ajouter les deux noeuds Decision Tree Learner et Decision Tree Predictor. Sélectionner l’option permettant de calculer les probabilités d’affectation à une classe : ”Append colums with normalized class distribution” et indiquer que les variables auront un suffixe P. 3. Ajouter un noeud Mining/Scorer/X-Partitioner} c’est la fin de la boucle. 4. Faire exécuter et étudier les deux sorties la table de sortie des prédictions et les taux d’erreurs. 1.6.3 Courbe ROC Ajouter un noeud Mining/Scoring/ROC Curve qui sera relié à la table de sortie du noeud de fin de boucle. Sélectionner la classe cible num pour la Class column. Choisir la modalité positive >50_1 et inclure dans les colonnes contenant les probabilités d’affectation la colonne contenant la probabilité d’affectatin à la modalité positive. Visualisez la courbe ROC, que vaut le critère AUC ? Figure 3 – Courbe ROC 1.7 Transfert du modèle Enregister votre projet. http://www.math.unicaen.fr/~kauffman/cours 3 [email protected]