Arbres de décision

Transcription

Arbres de décision
.
Arbres de décision
.
Applications en médecine
Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
[email protected]
Plan
1.
Introduction
2.
Méthodologie de construction d’un arbre de décision - CHAID
3.
Un coup d’oeil sur la méthode CART
4.
Exemples
5.
Limites
6.
Quelques logiciels
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
1 / 67
Introduction
Contexte
.
Deux familles de méthodes de classification
.
Classification non-supervisée (clustering)
Partitionner les observations en groupes différents (classes, catégories) mais les
plus homogènes possible au regard de variables décrivant les observations.
Le nombre de classes n’est pas connu à l’avance
Méthodes : Classification hiérarchique...
Classification supervisée (discrimination)
.
Obtenir un critère de séparation afin de prédire l’appartenance à une classe
(Y = f (X ) + ϵ).
Le nombre de classes est connu à l’avance (Variable à expliquer)
Méthodes : Régression logistique, Analyse discriminante, Arbres de décision,
Réseaux de neurones...
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
4 / 67
Introduction
Contexte
.
Une approche particulière de la discrimination
.
Outils statistiques intéressants et souvent utilisés en médecine
Une variable à expliquer et un ensemble de variables explicatives
Y = f (X1 , X2 , ..., Xp ) + ϵ
.
Y quantitative = arbre de régression (famille des régressions non
paramétriques)
Y qualitative = arbre de classement (méthode particulière de discrimination
/ apprentissage supervisé)
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
5 / 67
Introduction
Contexte
Comparaison avec les autres méthodes de discrimination
.
Arbres de décision
.
Méthode non linéaire, non
paramétrique
.
Régression logistique/Analyse Discriminante
.
Prise en compte des interactions
Modèles paramétriques
Tout type de variables explicatives
Additivité des coefficients
Grand nombre de variables
Prise en compte, uniquement, des
(méthode pas à pas)
variables explicatives binaires et
Résultats graphiques simples à
quantitatives
.
interpréter
Extraction de règles
(implémentations en BDD)
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
6 / 67
Introduction
Descriptif général
Principe de la segmentation
.
Principe
.
La segmentation consiste à construire un arbre de décision à l’aide de divisions
successives des individus d’un échantillon en deux, ou plus, segments (appelés
également noeuds) homogènes par rapport à une variable dépendante Y qui peut
être de nature :
binaire, nominale, ordinale ou quantitative
en utilisant l’information portée par p variables explicatives de nature :
.
binaire, nominale, ordinale ou quantitative
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
8 / 67
Introduction
Descriptif général
Deux types d’arbres de décision
.
Arbre de régression
.
La variable à expliquer est quantitative. Les variables de segmentation choisies
.sont celles qui minimisent la variance intra-segment de la variable à expliquer.
.
Arbre de classement
.
La variable à expliquer est qualitative. Les variables de segmentations retenues
dans l’arbre sont celles qui rendent les segments les plus différents possibles quant
aux
modalités de la variable à expliquer.
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
9 / 67
Introduction
Exemple introductif
Exemple introductif
Quinlan (1993)
L’objectif est d’expliquer le comportement de joueur de tennis (Variable à
expliquer : Y(jouer, ne pas jouer)) à partir de prévisions météorologiques (variables
explicatives Xi ).
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
11 / 67
Introduction
.
Descriptif des variables
.
Type
Variables
.
Exemple introductif
Nature
Unités/Modalités
X1
X2
X3
X4
Ensoleillement
Vent
Température
Humidité
Qualitative
Binaire
Quantitative
Quantitative
Soleil, couvert, pluie
Oui/Non
◦
F
%
Y
Jouer
Binaire
Oui/Non
Variable à expliquer binaire ⇒ Arbre de classement
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
12 / 67
Introduction
Exemple introductif
.
Vocabulaire et interprétation graphique
.
Racine
Variable de segmentation
Arête et noeud enfant
.
Feuille (pures)
Discrétisation de variable quantitative
Règle de décision
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
13 / 67
Introduction
Exemple introductif
Exemple introductif
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
14 / 67
Introduction
Questions mises en évidence
Question mises en évidence
.
Mais comment faire ?
.
Dans quel ordre interviennent les variables de segmentation ?
Choix de la variable de segmentation : indicateur évaluant la qualité de la
segmentation
Détermination d’un seuil optimal pour les variables quantitatives
Définition de la taille optimale de l’arbre (toujours des feuilles pures ??)
Règles d’affectation d’une observation à un groupe
Simple quand la feuille est pure...
Que faire lors que la feuille n’est pas pure ??
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
16 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Méthodologie de construction d’un arbre de décision
.
De nombreuses méthodes d’induction d’arbres (CHAID, CART, ID3, C4.5, ...)
Uniquement les méthodes CHAID (CHi-squared Automatic Interaction
Detection) et CART (Classification And Regression Trees) sont utilisées de
manière récurrente en médecine
.
Cours basé sur CHAID
Quelques références à CART
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
18 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Méthodologie de construction d’un arbre de décision
.
CHAID
.
REPETER
Prise en compte d’un sommet à segmenter
Préparation des variables quantitatives (discrétisation, choix d’un cut-off)
Sélection de la meilleure variable de segmentation (utilisation de l’indice)
Si la variable sélectionnée est qualitative Alors
Test de fusion des modalités ayant des profils similaires
Fusion si les tests s’avèrent significatifs
Fin SI
JUSQU’A
Conditions d’arrêt
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
19 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Discrétisation des variables quantitatives
Discrétisation des variables quantitatives
.
Principe
.
La détermination d’un cut-off se déroule de la manière suivante :
On ordonne de manière croissante les valeurs de la variable
On note le nombre de valeurs distinctes nd
Il y a donc nd − 1 seuils possibles
Pour chaque seuil → création d’une variable binaire (0 si < Seuil et 1 si >=
Seuil)
Chaque variable recodée est croisée avec la variable à expliquer et l’on calcule
un test du χ2 d’écart à l’indépendance.
Le seuil choisi sera celui qui maximisera la statistique du test (ou minimisera la
pvalue
associée)
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
21 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Discrétisation des variables quantitatives
Discrétisation des variables quantitatives
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
22 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Discrétisation des variables quantitatives
Discrétisation des variables quantitatives
.
Exemple avec la variable humidité (1)
.
On ordonne de manière croissante les valeurs d’humidité :
70
85
90
95
Il y a 5 observations dans le sommet in[soleil] et nd = 4 valeurs distinctes
.
Nous avons donc nd − 1 = 3 seuils possibles
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
23 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Discrétisation des variables quantitatives
Discrétisation des variables quantitatives
.
Exemple avec la variable humidité (2)
.
70
85
90
95
Seuil
1
:
Seuil
2
:
Seuil
3
:
(70+85)/2
=
77.5
(85+90)/2
=
87.5
(90+95)/2
=
92.5
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
24 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Discrétisation des variables quantitatives
Discrétisation des variables quantitatives
.
Exemple avec la variable humidité (3)
.
Pour chaque seuil, la variable quantitative est recodée en variable binaire
(discrétisation)
Chaque variable discrétisée est croisée à la variable à expliquer au travers d’un
tableau de contingence et un test du χ2 d’écart à l’indépendance est calculé
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
25 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Discrétisation des variables quantitatives
Discrétisation des variables quantitatives
.
Exemple avec la variable humidité (4)
.
.
Humidité <77.5
Humidité >= 77.5
Jouer=oui
2
0
Jouer=non
0
3
Humidité <87.5
Humidité >= 87.5
Jouer=oui
2
0
Jouer=non
1
2
Humidité <92.5
Humidité >= 92.5
Jouer=oui
2
0
Jouer=non
2
1
M. Genin (Université de Lille 2)
Arbres de décision
Seuils
Pvalue (χ2 )
77.5
0.0253
87.5
0.1360
92.5
0.3613
Version - 30 mars 2015
26 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Discrétisation des variables quantitatives
Méthodologie de construction d’un arbre de décision
.
CHAID
.
REPETER
Prise en compte d’un sommet à segmenter
Préparation des variables quantitatives (discrétisation, choix d’un cut-off)
Sélection de la meilleure variable de segmentation (utilisation de
l’indice)
Si la variable sélectionnée est qualitative Alors
Test de fusion des modalités ayant des profils similaires
Fusion si les tests s’avèrent significatifs
Fin SI
JUSQU’A
Conditions d’arrêt
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
27 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Choix de la variable de segmentation (split)
Choix de la variable de segmentation (split)
.
Utilisation de l’indicateur de qualité de segmentation
.
Après discrétisation des variables quantitatives → ensemble de variables
qualitatives candidates à la segmentation du sommet en cours
Choix de la meilleure variable de segmentation → utilisation de l’indicateur
de qualité de segmentation
.
Test du χ2 d’écart à l’indépendance de Pearson
La variable selectionnée sera celle qui maximisera la statistique du test (ou
minimisera la pvalue associée)
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
29 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Choix de la variable de segmentation (split)
.
Exemple de la segmentation du sommet in[Soleil]
.
Variables candidates : Humidité, Température, Vent, Ensoleillement (triviale)
Variable Candidate
Cut-off
Pvalue (χ2 )
0.0253
Humidité
77.5
Température
57.5
0.1360
Vent
-
0.7094
Ensoleillement
-
1
La variable Humidité est retenue car elle minimise la pvalue associée au test du χ2 .
Ce n’est pas étonnant car cette variable de segmentation produit des noeuds
enfants
purs.
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
30 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Choix de la variable de segmentation (split)
Méthodologie de construction d’un arbre de décision
.
CHAID
.
REPETER
Prise en compte d’un sommet à segmenter
Préparation des variables quantitatives (discrétisation, choix d’un cut-off)
Sélection de la meilleure variable de segmentation (utilisation de l’indice)
Si la variable sélectionnée est qualitative Alors
Test de fusion des modalités ayant des profils similaires
Fusion si les tests s’avèrent significatifs
Fin SI
JUSQU’A
Conditions d’arrêt
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
31 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Fusion des sommets lors de la segmentation (merge)
Fusion des sommets lors de la segmentation (merge)
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
33 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Fusion des sommets lors de la segmentation (merge)
Fusion des sommets lors de la segmentation (merge)
Optionnel dans la méthode CHAID
.
Principe
.
Initialement : la segmentation d’une variable qualitative produit autant de
sommets enfants que de modalités
Possibilité de fusion des sommets enfants → limiter la fragmentation des
données (faibles effectifs) et les sommets enfants ”redondants”
Comparaison des distributions de la VAE dans chaque sommet enfant et
regroupement des sommets ayant des profils proches
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
34 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Fusion des sommets lors de la segmentation (merge)
Fusion des sommets lors de la segmentation (merge)
.
Principe (2)
.
Test du χ2 d’équivalence distributionnelle
H0 : les deux sommets enfants ont des profils similaires
H1 : les deux sommets enfants ont des profils différents
La statistique suit une loi du χ2 à K − 1 d.d.l.
(
X =
K
∑
k=1
nk1
nk2
−
n.1
n.2
nk1 + nk2
n.1 × n.2
)2
∼ χ2K −1d.l.l.
K : nombre de modalités de la variable à expliquer
n.1 : nombre d’observations présentant la modalité liée au sommet 1
On fusionne les deux sommets enfants ayant les profils les plus proches (au
sens du test) puis on réitère l’opération jusqu’à ce qu’aucune fusion ne soit
possible
Possibilité qu’aucune fusion ne se réalise
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
35 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Fusion des sommets lors de la segmentation (merge)
Fusion des sommets lors de la segmentation (merge)
.
Principe (3)
.
On fusionne les deux sommets enfants ayant les profils les plus proches (au
sens du test) puis on réitère l’opération jusqu’à ce qu’aucune fusion ne soit
possible
.
Possibilité qu’aucune fusion ne se réalise
Possibilité que tous les sommets enfants soient fusionnés → la variable de
segmentation est éliminée d’office
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
36 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Fusion des sommets lors de la segmentation (merge)
Fusion des sommets lors de la segmentation (merge)
.
Exemple avec la variable Ensoleillement (1)
.
Intégration de la possibilité de fusion
Comparaison des sommets deux à deux :
.
Sommets
χ2
Pvalue (χ2 )
Action
Soleil et couvert
3.6
0.058
-
Soleil et Pluie
0.4
0.527
Fusion
Couvert et Pluie
2.06
0.151
-
Risque de première espèce (α) de 10%
Les modalités Soleil et Pluie peuvent être fusionnées
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
37 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Fusion des sommets lors de la segmentation (merge)
Fusion des sommets lors de la segmentation (merge)
.
Exemple avec la variable Ensoleillement (2)
.
Sommets
χ2
Pvalue (χ2 )
Action
(Soleil et Pluie) et Couvert
3.1
0.078
-
Aucune
fusion n’est possible → l’algorithme s’arrête !
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
38 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Fusion des sommets lors de la segmentation (merge)
Méthodologie de construction d’un arbre de décision
.
CHAID
.
REPETER
Prise en compte d’un sommet à segmenter
Préparation des variables quantitatives (discrétisation, choix d’un cut-off)
Sélection de la meilleure variable de segmentation (utilisation de l’indice)
Si la variable sélectionnée est qualitative Alors
Test de fusion des modalités ayant des profils similaires
Fusion si les tests s’avèrent significatifs
Fin SI
JUSQU’A
Conditions d’arrêt
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
39 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Conditions d’arrêt
Conditions d’arrêt et détermination de la bonne taille de
l’arbre
.
Notion de pré-élagage
.
Pendant la phase d’expansion de l’arbre
Acceptation de la segmentation si le test du χ2 est significatif quant à un
risque de première espèce α fixé par l’utilisateur (5% par exemple)
Le choix du seuil détermine la taille de l’arbre :
S’il est trop permissif → arbre sur-dimensionné (risque d’overfitting)
S’il est trop restrictif → arbre sous-dimensionné (toute l’information n’est pas
utilisée)
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
41 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Conditions d’arrêt
Conditions d’arrêt et détermination de la bonne taille de
l’arbre
.
Autres conditions d’arrêt
.
Les feuilles sont pures
Effectifs trop faibles dans un noeud pour segmenter (fixé par l’utilisateur)
Effectifs trop faibles dans les sommets enfants issus d’une segmentation (fixé
par l’utilisateur)
Profondeur limite de l’arbre atteinte (fixé par l’utilisateur)
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
42 / 67
Méthodologie de construction d’un arbre de décision - CHAID
Prise de décision
.
Après la construction de l’arbre...
.
Tirer des conclusions pour chaque feuille de l’arbre
Choisir dans quel groupe classer les individus (jouer=oui ou jouer= non)
Simple quand les feuilles sont pures !
SI (Ensoleillement = Soleil) ET (Humidité < 77.5%) ALORS Jouer = Oui
Dans 100% des cas !!
.
Feuilles non pures → règle de la majorité (classe majoritaire)
Estimation de la probabilité conditionnelle P(Y /Xi )
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
44 / 67
Un coup d’oeil sur la méthode CART
Méthode CART
Classification And Regression Trees
.
Principe
.
VAE qualitative ou quantitative
Variables explicatives qualitatives ou quantitatives
Arbres binaires uniquement → deux sommets enfants à chaque segmentation
Indice de qualité de segmentation basé sur l’indice de Gini
I =1−
K
∑
fk2 avec I ∈ [0, 1]
k=1
.
Plus l’indice de Gini est proche de 0 plus le noeud est pur
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
47 / 67
Un coup d’oeil sur la méthode CART
Méthode CART
Classification And Regression Trees
.
Principe
.
La variable de segmentation retenue est celle qui maximise le gain de pureté
défini par :
Gain = I (S) − [I (Fils1 ) + I (Fils2 )] avec Gain >= 0
Détermination de la taille de l’arbre = procédure de post élagage
Arbre complètement développé sur un premier échantillon (growing set)
Arbre réduit de manière à optimiser le taux de mauvais classement sur un
deuxième échantillon (pruning set)
.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
48 / 67
Un coup d’oeil sur la méthode CART
Comparaison avec CHAID
Classification And Regression Trees - Comparaison avec la
méthode d’induction CHAID
2.1. ARBRES DE DÉCISION
Table 2.2 – Comparatif des méthodes CHAID et CART
Caractéristiques/Méthodes
CHAID
CART
Impact(critère de segmentation)
χ2 d’indépendance ou t de
Tschuprow
Indice de Gini
Regroupement
Arbre
”n-aire”
Test
d’équivalence distributionnelle
Arbre binaire
Détermination de la ”taille
optimale”
Effectif minimum pour segmenter - Nombre de niveau de l’arbre
- Seuil de spécialisation - Effectifs d’admissibilité
Détermination de la taille
optimale (spécifique)
Pré-élagage avec le test du χ2
d’indépendance
Post-élagage par un échantillon
d’élagage ou un validation
croisée
Avantages
Performante pour une phase exploratoire de grandes bases de
données
Performante en termes de classement - Pas de complexité de paramétrage
Inconvénients
Moyennement
performante
en classement - Paramétrage
de la méthode compliqué
(détermination empirique du
seuil α)
Peu performante avec des
échantillons de taille faible
- Binarisation pas toujours
appropriée
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
50 / 67
Exemples
Prévention des effets indésirables liés aux médicaments
Prévention des effets indésirables liés aux médicaments
.
Le projet européen PSIP (Patient Safety Through Intelligent Procedures in
medication)
.
Effets indésirables liés aux médicaments sont trop fréquents
Responsables, chaque année, de 10 000 morts en France et 98 000 aux Etats
Unis
La prévention de ces effets est l’axe majeur du projet PSIP
Création d’outils d’aide à la décision basés sur la fouille automatisée de
données hospitalières
Recherche de règles d’alerte du type :
.
Cause1 &Cause2 &...&Causep ⇒ Effet = 1
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
53 / 67
Exemples
Prévention des effets indésirables liés aux médicaments
Effet
indésirable
:
INR
trop
bas
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
54 / 67
Exemples
Prévention des effets indésirables liés aux médicaments
Prévention des effets indésirables liés aux médicaments
.
Règles d’alerte
.
La règle extraite de l’arbre :
.
INR trop haut ET age > 78.66 ET hypoalbunémie ⇒ INR trop bas (85.7%)
87.5% est une estimation de P(Y /Xi ). C’est la confiance de la règle.
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
55 / 67
Exemples
Discrétisation de variables quantitatives
Discrétisation de variables quantitatives
.
Une autre utilisation des arbres...
.
La discrétisation de variable quantitative est utile dans la création de scores
cliniques
Ex : Fréquence cardiaque, pression artérielle
.
Détermination de seuils (cut-off) maximisant la segmentation au regard
d’une variable à expliquer qualitative (Vivant/ Décés)
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
57 / 67
+:*f,+,&A3"&$K$DA5$F/&&
Exemples
Discrétisation de variables quantitatives
_$%&3"#"$%&'$&)53%%$D$,8G&3:&8"3C$"%&'$&5$:"&)3A3)*8(&R&)"($"&'$%&):8B+LL&%+,8&'$%&D(82+'$%&A$"8*,$,8$%&A+:"&
Discrétisation
de variables quantitatives
8"+:C$"&:,&$,%$D#5$&'$&%$:*5%&P.&+:&A5:%F&D3K*D*%3,8&53&%$MD$,838*+,&'$%&*,'*C*':%&A3"&"3AA+"8&R&:,$&C3"*3#5$&
R&$KA5*9:$"&9:35*838*C$/&
"+)-)=8()$ /6.9#1,$ =01,%)$ (+6,.(./#,.01$ *)/$ #%:%)/$ *)$ 2(#//)=)1,$ *#1/$ (#$ %)2>)%2>)$ *$& %$:*5%& A+:"& 5$& 83:K& '$&
A"+82"+D#*,$&A3"&"3AA+"8&3:&'()(%&'$%&A38*$,8%?$"#$=4,>0*)$*+.1*62,.01$*+#%:%)$)/,$(+#('0%.,>=)$@ABCD7$#9)2$
:,&%$:*5&'$&%A5*8&R&VX/&
Score PELOD : discrétisation du taux de prothrombine en fonction de Vivant/
Décés
&
&
E1$%)=#%56)$56)$(+#('0%.,>=)$#$=./$)1$49.*)12)$F$/)6.(/$*./,.12,/$56.$=#-.=./)1,$(#$/)'=)1,#,.01&Z&
Algorithme
CHAID - Seuil de split : 5%
&
&
@?/V0&
&
M. Genin (Université de Lille 2)
VV/V0&
Arbres de décision
=>/V0&
Version - 30 mars 2015
58 / 67
Exemples
Discrétisation de variables quantitatives
Discrétisation de variables quantitatives
&
'0%.,>=)$#$=./$)1$49.*)12)$F$/)6.(/$*./,.12,/$56.$=#-.=./)1,$(#$/)'=)1,#,.01&Z&
3 seuils mis en évidence par l’algorithme :
@?/V0&
VV/V0&
=>/V0&
#*,$&A$:8&g8"$&3*,%*&'*%)"(8*%($&'$&53&D3,*J"$&%:*C3,8$&Z&
!"&^"+82"+D#*,$&h@?/V&#$%&'&^"+82"+D#*,$i"$)+'($&]&.&
!"&^"+82"+D#*,$&\]&@?/V&()&^"+82"+D#*,$&hVV/V0&#$%&'&^"+82"+D#*,$i"$)+'($]<&j&
!"&^"+82"+D#*,$&\]&VV/V0&()&^"+82"+D#*,$&h=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]@&j&
!"&^"+82"+D#*,$&\]&=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]?&&
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
59 / 67
Limites
Limites
Limites des méthodes d’induction d’arbres (1)
Nécessite de bases d’apprentissage de taille importante (fragmentation rapide
des données)
Instabilité en prédiction
Arbre surdimensionné → bonne explication de la variabilité mais mauvaises
qualités prédictives (overfitting)
Arbre sous-dimensionné → bonnes qualités prédictives mais ne considère pas
toute l’information contenue dans les données (underfitting)
Non exhaustivité des règles de décision obtenues (Parfois plus de valeur
”statistique” (discrimination) que de valeur ”métier”)
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
62 / 67
Limites
Limites
Limites des méthodes d’induction d’arbres (2)
”Effet papillon” : suppression d’une variable explicative et tout l’arbre change
Sensibles aux observations aberrantes
Pas de prise en compte des données manquantes
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
63 / 67
Limites
Quelques pistes
Quelques pistes...
Forêts aléatoires de Breiman (boostrapping, bagging)
Règles d’association (Analyse du panier de la ménagère)
Algorithmes d’imputation des données manquantes
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
65 / 67
Quelques logiciels
Quelques logiciels d’induction d’arbres de décision
Sipina
Logiciel Libre
Interface du type SPSS
Méthodes implémentées : CHAID, ID3, C4.5, Improved CHAID...
Possibilité de construction d’arbres en utilisant des connaissances expertes
R - Package Rpart
Logiciel libre
Package reconnu et souvent utilisé en recherche
Méthode implémentée : CART
Rendus graphiques paramétrables
M. Genin (Université de Lille 2)
Arbres de décision
Version - 30 mars 2015
67 / 67