Un aspect incontournable de la pratique du Data Mining

Transcription

Un aspect incontournable de la pratique du Data Mining
Un aspect incontournable de la pratique
du Data Mining : La matrice de coûts
Les coûts de mauvaise classification sont inévitables puisqu’aucun modèle n’est parfait !
Comme des mauvaises classifications sont pires que d’autres, STATISTICA vous permet
d’intégrer des coûts d’erreur de classement dans ses modèles de classification.
Qu’est ce qu’une erreur de classement ?
Autoriser un crédit à une personne sans garantie ne produit pas les mêmes conséquences
que de refuser un crédit à une personne solvable. Dans un cas, c’est une opportunité
manquée et dans l’autre cas, c’est une perte de revenu.
Diagnostiquer une maladie chez un patient sain ne produit pas les mêmes conséquences
que de prédire la bonne santé chez un individu malade. Un patient sera soigné à tort, ou
peut être demandera-t-on des analyses supplémentaires superflues ; dans le second cas, il
ne sera pas soigné, au risque de voir son état se détériorer de manière irrémédiable.
Quantifier les conséquences d’un bon
ou mauvais classement appartient aux
experts du domaine. Il n’est pas
question pour nous, data miners, de
s’immiscer dans cette phase.
En revanche, nous devons la prendre
en compte lors du processus
d’extraction de connaissances.
Dans les modèles de
classification de STATISTICA,
une matrice de coûts peut ainsi
être construite en remplaçant
les valeurs 1 par
défaut (les coûts de
mauvaise affectation
sont unitaires (les
bonnes affectations
coûtent 0, et les
mauvaises affectations
coûtent 1).
Créons 3 modèles de
classification avec des
coûts unitaires,
doubles ou quintuples.
Pour comparer nos résultats, nous allons construire les courbes de lift, de gains et ROC.
La courbe de Lift calcule le pourcentage d’événements se trouvant dans chaque décile du
score alors que la courbe ROC représente en abscisse le taux de Faux positifs pour la
modalité cible et en ordonnée le taux de Vrais positifs. La courbe la plus convexe nous
indiquera le modèle de meilleure performance.
La matrice de coûts qui double les coûts des mauvais classements Mauvais en Bons (courbe
verte sur les deux graphiques ci-dessus) permet de confirmer sur les courbes de lift ou de
gains qu’il s’agit là du modèle le plus performant pour une matrice de coûts donnée.
L’Aire sous la courbe, AUC, indique la
probabilité pour que la fonction SCORE
place un positif devant un négatif (dans le
meilleur des cas AUC = 1). Et on constate
que la matrice de coûts qui double les
mauvais classements
Mauvais en Bons
donne le meilleur
modèle de prédiction.
L’intégration des matrices de coûts dans STATISTICA Data Miner est un outil incontournable
et indispensable du Data Mining pour satisfaire l’utilisateur métier dans le réglage des coûts
des fausses alarmes.