Discussion autours de la Classification incrémentale

Transcription

Discussion autours de la Classification incrémentale
Discussion Autour de la
Classification incrémentale
Vincent Lemaire, Christophe Salperwyck
Atelier « Classification Incrémentale et Détection de Nouveauté» @ EGC 2013
http://perso.rd.francetelecom.fr/lemaire/CIDN/DiscussionClassificationIncrementale_Lemaire_et_al.pdf
diffusion libre
Plan
2
Orange Labs

Classification supervisée et flux de données

Autour de la notion de concept

Classifieurs incrémentaux : Tentative de taxonomie

Classifieurs incrémentaux : Un panel introductif

Méthodes d'évaluation

Apprendre avec peu d'exemples

Discussion
Plan
3
Orange Labs

Classification supervisée et flux de données

Autour de la notion de concept

Classifieurs incrémentaux : Tentative de taxonomie

Classifieurs incrémentaux : Un panel introductif

Méthodes d'évaluation

Apprendre avec peu d'exemples

Discussion
Classification supervisée et flux de données
"Classification incrémentale supervisée : un panel introductif", Christophe
Salperwyck and Vincent Lemaire - in a special number of the review 'Revue
des Nouvelles Technologies de l'Information' (http://www.antsearch.univtours.fr/rnti/)
4
Orange Labs
Classification supervisée et flux de données
5
Orange Labs

Fouille de données et Flux de données ?

Différentes formes d'apprentissage

Qu'est-ce qui change ?

Propriétés d'un bon algorithme

Différence incrémental / incrémental sur flux
Data Mining et Flux de données

Toutes les taches habituelles de la fouille de données
– Calculs de statistiques, Clustering, Classification, …

Peut être certaines un peu plus d'actualités
– Détection de nouveautés, détection de dérive de concept, …

Déjà de nombreuses applications
–

Exemples illustratifs :
–
–
–
–
–
6
Orange Labs
Saunier, N., S. Midenet, et A. Grumbach (2004). Apprentissage incrémental par
sélection de données dans un flux pour une application de sécurité routière. In
Conférence d’Apprentissage (CAP), pp. 239–251.
Compter le nombre d'occurrences des éléments (Count-Min Sketch)
Compter le nombre de valeurs distinctes
Bornes de variables aléatoires (Chernoff Bound…)
Calcul de statistiques "simples" : moyenne, variance, …
…
Différentes formes d'apprentissage

Apprentissage hors ligne
–
–
–
7
Orange Labs
jeu de données représentatif du problème disponible au moment de
l’apprentissage.
réalisable sur des volumes de taille faible à moyenne (jusqu’à quelques Go).
montre ses limites dans le cas où
(i) les données ne sont pas entièrement chargeables en mémoire ou arrive de
manière continue ;
(ii) la complexité calculatoire de l’algorithme d’apprentissage est supérieure à
une complexité dite quasi-linéaire.
Différentes formes d'apprentissage

Apprentissage incrémental
–
–
–

correspond à un système capable de recevoir et d’intégrer de nouveaux
exemples sans devoir réaliser un apprentissage complet.
si, pour n’importe quels exemples x1, ..., xn il est capable de produire des
hypothèses f1, ..., fn tel que fi+1 ne dépend que de fi et de l’exemple courant xi.
un temps d’apprentissage beaucoup plus rapide / hors ligne.
Pour atteindre cet objectif les algorithmes ne lisent souvent qu’une seule fois
les exemples ce qui permet en général de traiter de plus grandes
volumétries.
(1) Par extension de la définition la notion “d’exemple courant” peut
être étendu à un résumé des derniers exemples vus, résumé utile à
l’algorithme d’apprentissage utilisé.
8
Orange Labs
Différentes formes d'apprentissage

Apprentissage en ligne
–
–
–
–

l’arrivée des exemples se fait de manière continue pour réaliser cet apprentissage
l’algorithme est capable de fournir un modèle intégrant ce nouvel exemple.
exigences en termes de complexité calculatoire sont plus fortes que pour
l’apprentissage incrémental.
des contraintes de mémoire et des problèmes de dérive de concept.
Apprentissage anytime
–
Ici "interuptible" (Zilberstein, S. et S. Russell (1996). Optimal composition of real-time
systems. Artificial Intelligence 82(1), 181–213.)
9
Orange Labs
Différentes formes d'apprentissage

Il est nécessaire, lors de la mise en place d’un système basé sur un
classifieur supervisé, de se poser certaines questions :
–
–
–
–
–

10
Orange Labs
Les exemples peuvent-ils être stockés en mémoire ?
Quelle est la disponibilité des exemples : tous présents ? en flux ? visibles une
seule fois ?
Le concept est-il stationnaire ?
L’algorithme doit-il être anytime ?
Quel est le temps disponible pour mettre à jour le modèle ?
Les réponses à ces questions doivent permettre de sélectionner les
algorithmes adaptés à la situation et de savoir si on a besoin d’un
algorithme incrémental, voire d’un algorithme spécifique aux flux.
Flux - Qu'est ce qui change ?

Les éléments du flux arrivent 'online'

Pas de contrôle sur l'ordre d'arrivée des éléments du flux
(accès séquentiel  accès aléatoire)

Lorsqu'un élément a été traité il est soit "archivé" soit détruit

Le flux peut être de taille infinie (données non stockables?)
+

Temps CPU limité

Mémoire limitée

11
Orange Labs
…
Propriétés d'un bon algorithme
(Domingos et Hulten, 2001) (0) proposent les critères suivants :
• durée faible et constante pour apprendre les exemples ;
• lecture d’une seule fois des exemples et dans leur ordre d’arrivée ;
• utilisation d’une quantité de mémoire fixée à priori ;
• production d’un modèle proche de celui qui aurait été généré s’il n’y avait pas eu la contrainte de flux ;
• possibilité d’interroger le modèle à n’importe quel moment (anytime) ;
• possibilité de suivre les changements de concept.
(0) Domingos, P. et G. Hulten (2001). Catching up with the data : Research issues in mining data streams. In Workshop on
Research Issues in Data Mining and Knowledge Discovery.
(1) Fayyad, U. M., G. Piatetsky-Shapiro, P. Smyth, et R. Uthurusamy (1996). Advances in Knowledge Discovery and Data Mining.
Menlo Park, CA, USA : American Association for Artificial Intelligence
(2) Hulten, G., L. Spencer, et P. Domingos (2001). Mining time-changing data streams. In Proceedings of the seventh ACM SIGKDD
international conference on Knowledge discovery and data mining, pp. 97–106. ACM New York, NY, USA.
(3) Stonebraker, M., U. Çetintemel, et S. Zdonik (2005). The 8 requirements of real-time stream processing. ACM SIGMOD Record
34(4), 42–47.
12
Orange Labs
Différence incrémental / incrémental sur flux
13
Orange Labs
Plan
14
Orange Labs

Classification supervisée et flux de données

Autour de la notion de concept

Classifieurs incrémentaux : Tentative de taxonomie

Classifieurs incrémentaux : Un panel introductif

Méthodes d'évaluation

Apprendre avec peu d'exemples

Discussion
Concepts, Contexte et dérives
diffusion libre
Concept

: L'espace de tous les exemples possibles
x
D
: un exemple
PY
: distribution de probabilité
: distribution de probabilité de la classe d'appartenance
f :    1;1
: le classifieur
P ( x, y )  P ( x ) P ( y x )
16
Orange Labs
: concept cible
Dérive de concept
P1 ( x, y)  P1 ( x) P1 ( y x)
17
Orange Labs
P2 ( x, y )  P1 ( x) P2 ( y x)
Distribution conditionnelle
P2 ( x, y )  P2 ( x) P1 ( y x)
Distribution des exemples
P2 ( x, y )  P2 ( x) P2 ( y x)
Les deux
Dérive de concept
Concept
shift
Gradual
drift
Incremental
shift
Reoccurring
contexts
18
Orange Labs
Contexte…
Contexte i
P1 ( x, y)  P1 ( x) P1 ( y x)
Contexte j
P2 ( x, y)  P2 ( x) P2 ( y x)
Contexte = Période de temps sans dérive
Flux = Séquence de contextes
19
Orange Labs
Discussion
Contexte i
P1 ( x, y)  P1 ( x) P1 ( y x)
Contexte j
P2 ( x, y )  P2 ( x) P2 ( y x)
P2 ( x, y )  P1 ( x) P2 ( y x)
La dérive "Covariate shift" existe-t-elle vraiment ?
20
Orange Labs
Si oui même si on détecte cette dérive qu'en fait-on ? Car en
préquential il n'y a pas d'ensemble de test (donc rien à
pondérer) et si on plus on suppose pas de loi sur les
distributions…
Gérer la dérive de concept
Contexte i
P1 ( x, y)  P1 ( x) P1 ( y x)
Contexte j
P2 ( x, y)  P1 ( x) P2 ( y x)
?
Gérer la dérive  Détecter la dérive
21
Orange Labs
Gérer la dérive de concept
Contexte i
•
•
22
Orange Labs
Contexte j
Soit détecter et :
1) Réapprendre le modèle
2) Adapter le modèle courant
3) Adapter un résumé des données sur lequel se fonde
le modèle courant
4) Travailler avec une séquence de :
•
Modèles
•
Résumés
Ne rien détecter mais apprendre très régulièrement
• Un modèle
•
Plusieurs modèles (pondérés)
Détecter la dérive de concept
Contexte i
•
•
23
Orange Labs
Contexte j
Surveiller les performances du modèle
• Widmer et al (1996) dont gestion adaptative de
la taille du fenêtre (FLORA)
• …
Surveiller la distribution des exemples
• Test statistiques
• …
Détecter la dérive de concept
Contexte i
•
•
Contexte j
Surveiller les performances du modèle
• Widmer et al (1996) dont gestion adaptative de
la taille du fenêtre (FLORA)
• …
Surveiller la distribution des exemples
• Test statistiques
• …
! Détection de dérive  Détection de nouveautés
24
Orange Labs
Plan
25
Orange Labs

Classification supervisée et flux de données

Autour de la notion de concept

Classifieurs incrémentaux : Tentative de taxonomie

Classifieurs incrémentaux : Un panel introductif

Méthodes d'évaluation

Apprendre avec peu d'exemples

Discussion
Classifieurs incrémentaux :
Tentative de taxonomie
diffusion libre
Préambule
27
Orange Labs

Une séquence de contexte ?

Un seul concept : P(Y|X) constant
La probabilité P(Y|X) ne varie pas dans le temps.

Plusieurs concepts
Dans le temps le concept peut complètement changer très rapidement. On a donc une
suite de concepts à modéliser.

Concept qui évolue  "concept drift" ( concept "shift")
Le concept évolue au cours du temps et il faut détecter les changements à l'aide des
nouveaux exemples qui arrivent. Le changement dans ce cas est assez lent.

Covariate shift (existe vraiment?)
Contraintes
Exemples
Concept
Algorithme
Volume
faible à
moyen
Volume
important
Un
concept
Rapidité apprentissage –
mise à jour du modèle
Nombre de
paramètres
Classifieur
Précision
28
Orange Labs
Plusieurs
concepts
Rapidité
classification
Flux de données
Concept
drift
CPU / Disque /
Mémoire
Compréhensibilité
Généralisation / sensibilité au bruit
/ robustesse
Pourquoi ne pas utiliser les algorithmes classiques
pour les flux ?
La volumétrie trop importante oblige à n’utiliser qu’une partie des
exemples et donc à ne pas utiliser tout le potentiel.
Idée :
Trouver un algorithme dédié
aux flux qui sera capable
d’utiliser tous les exemples
pour l’apprentissage
Domingos, P., & Hulten, G. (2000). Mining
high-speed data streams. SIGKDD
29
Orange Labs
Une taxonomie ?
full example memory Store all examples
•
allows for efficient restructuring
•
good accuracy
•
huge storage needed
Examples: ID5, ID5R, ITI
no example memory Only store statistical information in the nodes
•
loss of accuracy (depending on the information stored or again huge storage
needed)
•
relatively low storage space
Examples: ID4
partial example memory Only store selected examples
•
trade of between storage space and accuracy
Examples: FLORA, AQ-PM
30
Orange Labs
Une taxonomie (Gama 2010) ?
Detection
Monitoring of performances
Model Management
Monitoring of properties of the
classification model
Monitoring of properties of the
data
Number
Granularity
Full Memory
Weighting
Aging
Partial Memory
Windowing
Fixed Size Windows
Weighting
Aging
Adaptive Size Window
Weighting
Aging
"No memory"
Weights
Blind methods
'Informed methods'
Adaptation
31
Orange Labs
Data Management
Taxonomie : Classifieur vs drift
Réception d'un signal : il
faut changer le modèle
Pas de détection (pas
d'analyse des données)
32
Orange Labs
Plan
33
Orange Labs

Classification supervisée et flux de données

Autour de la notion de concept

Classifieurs incrémentaux : Tentative de taxonomie

Classifieurs incrémentaux : Un panel introductif

Méthodes d'évaluation

Apprendre avec peu d'exemples

Discussion
Classification supervisée
incrémentale
diffusion libre
Classifieurs

Naturellement incrémentaux :
– Kppv, réseaux de neurones, naive Bayes

A priori pas incrémentaux
– SVM, arbres, …
35
Orange Labs
Tableau comparatif
Bien sur subjectif, dépendant de l'implémentation, …
On note dans ce tableau : n le nombre d’exemples ; j le nombre d’attributs ; a le nombre de
règles ; b le nombre moyen de prémices par règle et s le nombre de vecteurs supports.
36
Orange Labs
Principaux algorithmes incrémentaux
(sans flux)

Arbre de décisions
– ID4 (Schlimmer - ML’86)
– ID5/ITI (Utgoff – ML’97)
– SPRINT (Shaffer - VLDB’96)
– …

Bayésien naïf
– Naturellement incrémentale pour la version naïve
– Apprend très vite et faible variance (Domingos – ML’97)
– Peut être combiné avec un arbre de décision :
NBTree (Kohavi – KDD’96)
37
Orange Labs
Principaux algorithmes incrémentaux (2)
(sans flux)

Réseaux de neurones
– IOLIN (Cohen - TDM’04)
– learn++ (Polikar - IJCNN’02),…

Support Vector Machine
– TSVM (Transductive SVM pour du semi-supervisé –
Klinkenberg IJCAI’01),
– PSVM (Proximal SVM – Mangasarian KDD’01),…
– LASVM (Bordes 2005)

Systèmes à base de règles
– AQ15 (Michalski - AAAI’86), AQ-PM (Maloof/Michalski - ML’00)
– STAGGER (Schlimmer - ML’86)
– FLORA (Widmer - ML’96)
–
38
Orange Labs
Source d'idée pour les méthodes 'fadding factors'
Principaux algorithmes sur les flux (1/2)

Bases de règles
– FACIL (Ferrer-Troyano – SAC’04,05,06)

Ensemble de classifieurs
– SEA (Street - KDD’01) basé sur C4.5

Plus proche voisin
– ANNCAD (Law – LNCS‘05), découpage de l’espace en cellules
de différentes tailles + ensemble.

SVM
– CVM (Tsang – JMLR’06), approximation de la solution optimale
39
Orange Labs
Principaux algorithmes sur les flux (2/2)

Arbres de décisions
–
–
–
–
40
Orange Labs
Domingos : VFDT (KDD’00), CVFDT (KDD’01)
Gama : VFDTc (KDD’03), UFFT (SAC’04)
Kirkby : Ensemble d’Hoeffding Trees (KDD’09)
del Campo-Avila : IADEM (LNCS’06)
Plan
41
Orange Labs

Classification supervisée et flux de données

Autour de la notion de concept

Classifieurs incrémentaux : Tentative de taxonomie

Classifieurs incrémentaux : Un panel introductif

Méthodes d'évaluation

Apprendre avec peu d'exemples

Discussion
Comment s'évaluer ?
diffusion libre
Méthodes d’évaluation

On se compare aux autres algorithmes par rapport aux :
– taux de prédiction (avec ou sans contraintes de ressources)
– vitesse : nombre d’exemples par seconde
– en apprentissage
– en classification
– taille du modèle (mémoire, nombre de nœuds,…)
– …

On prend des jeux de données :
– réels / artificiels
– sans / avec changements de contexte
– vrais flux / flux simulés
43
Orange Labs
Méthodes d'évaluation : quels algorithmes ?

Comparaison avec des algorithmes connus
–
–
Sans flux :
–
C4.5
–
ID3
–
Bayésien Naïf
–
Forêt d’arbres
Pour les systèmes en flux :
Nom de l’algorithme
VFDT
CVFDT
SEA
VFDTc
UFFT
FACIL
Ensemble d'Hoeffding Tree
44
Orange Labs
Auteur principal
Domingos
Domingos
Street
Gama
Gama
Ferrer
Kirkby
Année
2000
2001
2001
2003
2005
2005
2008
Méthodes d'évaluation – quels jeux de données ?

Jeu de test sans flux : UCI

Jeu de test pour les flux
–
Artificiel : Hyperplan en mouvement, SEA, STAGGER, Random RBF
Generator, LED Generator, Waveform Generator, Function Generator
–
Données réelles : Forest Covertype, Poker-Hand, Electricity, Proxy,…
Nom
STAGGER
SEA Concept
Hyperplan en mouvement
Forest Covertype
Poker Hand
45
Orange Labs
Proposé par
[Schlimmer1986]
[Street2001]
[Hulten2001]
UCI
UCI
Type
Artificiel
Artificiel
Artificiel
Réel
Réel

Jeu de données ‘Orange’ : CRM, Publicité

Boîte à outils : MOA (idem à Weka mais pour les flux)
Taille
infini
infini
infini
581K
1M
Méthodes d'évaluation – quelle mesure ?
Précision

Plus de validation croisée
–
–

données disponibles en nombre suffisant ce qui limite la
variance
volumétrie importante et arrivée en continue
Sans changement de contexte
1. jeu de données indépendant et unique
2. jeu de données remis à jour régulièrement
3. « Préquentiel » : on utilise les nouveaux exemples qui arrivent
comme jeu de test (avant de les apprendre)

Avec changement de contexte
L’approche 1. n’a plus de sens, seul les approches 2. et 3.
peuvent être utilisées.
NB : l’approche 3. est pessimiste mais l’utilisation de fenêtres temporelles ou de
facteurs d’oubli permettent de se rapprocher d’un jeu de données indépendant
46
Orange Labs
Evaluation préquentielle
Pessimiste
basée sur la somme (S) accumulée de la fonction de perte.
n
S   L( yi , ŷi )
i 1
S
M
n
On peut utiliser un facteur d’oubli ou une fenêtre pour se
rapprocher de l’erreur d’un jeu de test indépendant (mais
cela nécessite de la mémoire).
47
Orange Labs
Et aussi

Littlestone, N. et M. Warmuth (1989). The weighted majority
algorithm. 30th Annual Symposium on Foundations of
Computer Science, 256–261.
– Mystake-bound
48
Orange Labs
Plan
49
Orange Labs

Classification supervisée et flux de données

Autour de la notion de concept

Classifieurs incrémentaux : Tentative de taxonomie

Classifieurs incrémentaux : Un panel introductif

Méthodes d'évaluation

Apprendre avec peu d'exemples

Discussion
Apprendre avec peu…
diffusion libre
Sommaire
1. Positionnement et le pourquoi de cette étude ?
2. Classifieurs testés
3. Protocole expérimental
–
–
Construction des jeux de données
Critère d’évaluation : ALC
4. Résultats
5. Conclusion
51
Orange Labs
–
Recommandations
–
Travaux futurs
Faire au plus simple ?
Baseline
Detection
Monitoring of performances
Model Management
Monitoring of properties of the
classification model
Monitoring of properties of the
data
Number
Granularity
Full Memory
Weighting
Aging
Partial Memory
Windowing
Fixed Size Windows
Weighting
Aging
Adaptive Size Window
Weighting
Aging
"No memory"
Weights
Blind methods
'Informed methods'
Adaptation
52
Orange Labs
Data Management
Quel algorithme utiliser ?
53
Orange Labs
Etude

Impact de la taille de l’ensemble d’apprentissage :
comportement en apprentissage des principaux algorithmes
sur très peu de données : 2, 4, 8,16… exemples

Plus large panel de jeux de données : 17 bases de l’UCI
– variables catégorielles et/ou numériques
– problèmes de classification binaire

Plus large panel d’algorithmes :
Modèle génératif
Modèle discriminant
54
Orange Labs
Classifieur linéaire
Classifieur non linéaire
Bayésien naïf
Bayésien naïf sélectif
Réseaux Bayésien
IB1
Régression logistique
Forêt d’arbres de
décision, Arbre de
décision
Classifieurs testés

A partir de Weka (Université de Waikato)
– Arbres : J48 (C4.5), SimpleCart, RandomForest, ADTree
– Bayésien : naïf supervisé/non supervisé
– Réseaux Bayésiens
– Régression logistique
– Vote : VFI

A partir de Khiops (Orange Labs)
– Bayésien naïf (NB)
– Bayésien naïf sélectif (SNB)
Prétraitements
:
Variables catégorielles
Basic grouping
MODL : supervisé et régularisé
55
Orange Labs
Variables numériques
EqualFreq : 10 intervalles
EqualWidth : 10 intervalles
MODL : supervisé et régularisé
Jeux de données : bases de l’UCI
Nom de la base
Adult
Australian
Breast
Bupa
Crx
German
Heart
Hepatitis
Horsecolic
Hypothyroid
Ionosphere
Mushroom
Pima
SickEuthyroid
Sonar
Spam
Tictactoe
56
Orange Labs
Nombre de
variables
continues
7
6
10
6
6
24
10
6
7
7
34
0
8
7
60
57
0
Nombre de
variables
catégorielles
8
8
0
0
9
0
3
13
20
18
0
22
0
18
0
0
9
Taille
48842
690
699
345
690
1000
270
155
368
3163
351
8416
768
3163
208
4307
958
Protocole expérimental :
construction des jeux de données
10 validations
croisées
Test : 10%
Jeu de données : n exemples
Test du
modèle
57
Orange Labs
Apprentissage : 90%
Tirer 2,4,8,16,
32, 64... exemples
10 fois
AUC
ALC
Construction
du modèle sur
les exemples
Naïve Bayes,
Random Forest,…
Protocole expérimental :
critère d’évaluation ALC
AUC
ALC : Area under the Learning Curve
ALC
21
58
Orange Labs
22
23
...
Log2 du nombre d’exemples
2log2 0.9 n1
Résultat :
un exemple de courbes sur la base UCI : Adult
59
Orange Labs
Résultats : tableaux synthétiques
Avec tous les exemples
W-RF40
NB-EF-BG
NB-EW-BG
W-VFI-N
NB-EF-M
W-RF10
W-BN
W-NB-S
NB-EW-M
W-ADT
W-Log100
W-NB-NS
NB-M-BG
W-VFI
SNB-EF-BG
SNB-EW-BG
NB-M-M
SNB-EF-M
SNB-EW-M
SNB-M-BG
SNB-M-M
W-J48
W-SCart
60
Orange Labs
Rang moyen
3,65
4,53
6,47
6,82
7,06
7,29
8,18
8,53
9,00
10,88
10,88
11,00
11,94
13,65
14,88
15,47
15,94
16,06
16,53
16,53
17,82
20,65
22,24
ALC
59,26
56,25
55,27
55,33
54,55
55,56
53,88
53,89
53,57
51,01
52,12
50,51
49,93
48,86
46,96
46,59
46,83
46,54
46,17
44,97
44,46
38,74
31,95
AUC finale
91,30
88,04
86,82
83,13
88,04
89,70
87,36
87,35
86,80
88,66
88,55
87,09
86,81
82,04
88,15
87,06
86,84
88,20
86,99
87,07
87,19
82,84
81,70
En s’arrêtant à 26 exemples
Rang moyen
ALC
AUC finale
W-RF40
47,10 d’arbres
86,21
Le bagging 4,35
ou boosting
W-VFI-N
4,59
47,50
82,43
de
décisions
a
de
très
bonnes
NB-EF-BG
4,65
45,88
83,45
NB-EW-BG
5,41 :
45,55
82,34
performances
W-RF10
6,88
43,26
84,09
Bayésien
naïf
apprend
avec
peu de
Breiman
L.
NB-EF-M
7,47
43,01
83,29
données
“Random: forest”
NB-EW-M
8,29
42,72
82,12
W-BN
41,94
Domingos
P,8,88
Pazzani
M. 81,58
Machine
learning.
2001
W-NB-S
8,88
41,92
81,28
On
the
optimality
of
the
simple
W-Log100
10,00
40,19
79,99
Les
sont
W-VFI méthodes
10,24régularisées
40,55 zero-one
77,91
Bayesian
classifier
under
W-NB-NS
11,53
37,22
82,60
robustes
:
loss.
Machine
learning.
W-ADT
11,76
36,43
83,02
Cucker
NB-M-BG F, Smale
11,88 S. 36,85
80,92
SNB-EW-BG
15,65for Regularization
31,40
81,93
“Best
Choices
SNB-EF-BG
15,88
30,77
82,44
Parameters
in
Learning
Theory:
NB-M-M
16,18
31,60
80,29
SNB-EW-M
16,76
30,79
81,76
On
the Bias-Variance
Problem.”
SNB-EF-M
17,12
30,09
82,20
Foundations
of
Computational
SNB-M-BG
17,76
28,65
80,18
SNB-M-M
19,41
80,12
Mathematics.
2008 27,71
W-J48
19,94
24,80
74,14
W-SCart
22,47
15,66
70,52
Classement ?
• Les classifieurs génératif sont meilleurs que les classifieurs discriminant lorsque
le nombre d'exemple est faible et qu'il n'y a qu'un seul classifieur (Bouchard
2004)
• Ensemble de classifieurs sont très bons (Bauer 1999) :
• Bagging de classifieurs discriminants supplante un classifieur génératif (et avec
une faible variance) (Breiman 1996)
• Les méthodes "très" régularisées" sont très (trop) robuste (Cucker 2008)
• Les ensembles de classifieurs génératifs sont à ajouter à l'étude…
• Vis à vis des études partielles existantes :
• Pas de contradiction avec nos conclusions
61
Orange Labs
Recommandations
62
Orange Labs

Random Forest avec une taille de forêt de 40

Bayésien naïf en « Equal Frequency » et « Basic Grouping »

VFI pour des très petits jeux de données

Combinaison d’algorithmes
Résultats
Un nouveau critère ?
63
Orange Labs
Apport pour l’apprentissage incrémental
et sur les flux

Dans le cadre d’un flux, pourquoi ne pas mettre souvent à jour
le classifieur en utilisant un algorithme qui apprend avec peu de
données (RandomForest40 par exemple).

Les intérêts sont :
– classifieur toujours à jour
– apprentissage rapide
RF40
RF40
Flux (Waveform)
64
Orange Labs
RF40
Utilisation sur les flux
VFDT
82
81
80
79
78
77
76
75
74
0
1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000 9000000 1E+07
VFDT
65
Orange Labs
Utilisation sur les flux
85
83
81
79
77
75
73
0
500000
1000000
1500000
RF40-4096
66
Orange Labs
2000000
VFDT
2500000
3000000
Approche similaire
Gama a proposé VFDTc à KDD’03
– Amélioration de VFDT
– Extension aux attributs numériques
– On observe qu’il faut de 100 à 1000 exemples pour passer
d’une feuille à un nœud
 Pourquoi ne pas mettre un classifieur dans les feuilles ?
Lequel ?
– Sur de petites quantités de données, la bayésien naïf
fonctionne bien. De plus il est incrémental.
 Ajout d’un classifieur bayésien naïf dans les feuilles
67
Orange Labs
Utilisation sur les flux
86
84
82
80
78
76
74
72
0
5
10
15
VFDTc (NB)
68
Orange Labs
20
RF40-4096
25
VFDT
30
35
Discussion…
69
Orange Labs