Un aspect incontournable de la pratique du Data Mining
Transcription
Un aspect incontournable de la pratique du Data Mining
Un aspect incontournable de la pratique du Data Mining : La matrice de coûts Les coûts de mauvaise classification sont inévitables puisqu’aucun modèle n’est parfait ! Comme des mauvaises classifications sont pires que d’autres, STATISTICA vous permet d’intégrer des coûts d’erreur de classement dans ses modèles de classification. Qu’est ce qu’une erreur de classement ? Autoriser un crédit à une personne sans garantie ne produit pas les mêmes conséquences que de refuser un crédit à une personne solvable. Dans un cas, c’est une opportunité manquée et dans l’autre cas, c’est une perte de revenu. Diagnostiquer une maladie chez un patient sain ne produit pas les mêmes conséquences que de prédire la bonne santé chez un individu malade. Un patient sera soigné à tort, ou peut être demandera-t-on des analyses supplémentaires superflues ; dans le second cas, il ne sera pas soigné, au risque de voir son état se détériorer de manière irrémédiable. Quantifier les conséquences d’un bon ou mauvais classement appartient aux experts du domaine. Il n’est pas question pour nous, data miners, de s’immiscer dans cette phase. En revanche, nous devons la prendre en compte lors du processus d’extraction de connaissances. Dans les modèles de classification de STATISTICA, une matrice de coûts peut ainsi être construite en remplaçant les valeurs 1 par défaut (les coûts de mauvaise affectation sont unitaires (les bonnes affectations coûtent 0, et les mauvaises affectations coûtent 1). Créons 3 modèles de classification avec des coûts unitaires, doubles ou quintuples. Pour comparer nos résultats, nous allons construire les courbes de lift, de gains et ROC. La courbe de Lift calcule le pourcentage d’événements se trouvant dans chaque décile du score alors que la courbe ROC représente en abscisse le taux de Faux positifs pour la modalité cible et en ordonnée le taux de Vrais positifs. La courbe la plus convexe nous indiquera le modèle de meilleure performance. La matrice de coûts qui double les coûts des mauvais classements Mauvais en Bons (courbe verte sur les deux graphiques ci-dessus) permet de confirmer sur les courbes de lift ou de gains qu’il s’agit là du modèle le plus performant pour une matrice de coûts donnée. L’Aire sous la courbe, AUC, indique la probabilité pour que la fonction SCORE place un positif devant un négatif (dans le meilleur des cas AUC = 1). Et on constate que la matrice de coûts qui double les mauvais classements Mauvais en Bons donne le meilleur modèle de prédiction. L’intégration des matrices de coûts dans STATISTICA Data Miner est un outil incontournable et indispensable du Data Mining pour satisfaire l’utilisateur métier dans le réglage des coûts des fausses alarmes.