Discussion autours de la Classification incrémentale
Transcription
Discussion autours de la Classification incrémentale
Discussion Autour de la Classification incrémentale Vincent Lemaire, Christophe Salperwyck Atelier « Classification Incrémentale et Détection de Nouveauté» @ EGC 2013 http://perso.rd.francetelecom.fr/lemaire/CIDN/DiscussionClassificationIncrementale_Lemaire_et_al.pdf diffusion libre Plan 2 Orange Labs Classification supervisée et flux de données Autour de la notion de concept Classifieurs incrémentaux : Tentative de taxonomie Classifieurs incrémentaux : Un panel introductif Méthodes d'évaluation Apprendre avec peu d'exemples Discussion Plan 3 Orange Labs Classification supervisée et flux de données Autour de la notion de concept Classifieurs incrémentaux : Tentative de taxonomie Classifieurs incrémentaux : Un panel introductif Méthodes d'évaluation Apprendre avec peu d'exemples Discussion Classification supervisée et flux de données "Classification incrémentale supervisée : un panel introductif", Christophe Salperwyck and Vincent Lemaire - in a special number of the review 'Revue des Nouvelles Technologies de l'Information' (http://www.antsearch.univtours.fr/rnti/) 4 Orange Labs Classification supervisée et flux de données 5 Orange Labs Fouille de données et Flux de données ? Différentes formes d'apprentissage Qu'est-ce qui change ? Propriétés d'un bon algorithme Différence incrémental / incrémental sur flux Data Mining et Flux de données Toutes les taches habituelles de la fouille de données – Calculs de statistiques, Clustering, Classification, … Peut être certaines un peu plus d'actualités – Détection de nouveautés, détection de dérive de concept, … Déjà de nombreuses applications – Exemples illustratifs : – – – – – 6 Orange Labs Saunier, N., S. Midenet, et A. Grumbach (2004). Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière. In Conférence d’Apprentissage (CAP), pp. 239–251. Compter le nombre d'occurrences des éléments (Count-Min Sketch) Compter le nombre de valeurs distinctes Bornes de variables aléatoires (Chernoff Bound…) Calcul de statistiques "simples" : moyenne, variance, … … Différentes formes d'apprentissage Apprentissage hors ligne – – – 7 Orange Labs jeu de données représentatif du problème disponible au moment de l’apprentissage. réalisable sur des volumes de taille faible à moyenne (jusqu’à quelques Go). montre ses limites dans le cas où (i) les données ne sont pas entièrement chargeables en mémoire ou arrive de manière continue ; (ii) la complexité calculatoire de l’algorithme d’apprentissage est supérieure à une complexité dite quasi-linéaire. Différentes formes d'apprentissage Apprentissage incrémental – – – correspond à un système capable de recevoir et d’intégrer de nouveaux exemples sans devoir réaliser un apprentissage complet. si, pour n’importe quels exemples x1, ..., xn il est capable de produire des hypothèses f1, ..., fn tel que fi+1 ne dépend que de fi et de l’exemple courant xi. un temps d’apprentissage beaucoup plus rapide / hors ligne. Pour atteindre cet objectif les algorithmes ne lisent souvent qu’une seule fois les exemples ce qui permet en général de traiter de plus grandes volumétries. (1) Par extension de la définition la notion “d’exemple courant” peut être étendu à un résumé des derniers exemples vus, résumé utile à l’algorithme d’apprentissage utilisé. 8 Orange Labs Différentes formes d'apprentissage Apprentissage en ligne – – – – l’arrivée des exemples se fait de manière continue pour réaliser cet apprentissage l’algorithme est capable de fournir un modèle intégrant ce nouvel exemple. exigences en termes de complexité calculatoire sont plus fortes que pour l’apprentissage incrémental. des contraintes de mémoire et des problèmes de dérive de concept. Apprentissage anytime – Ici "interuptible" (Zilberstein, S. et S. Russell (1996). Optimal composition of real-time systems. Artificial Intelligence 82(1), 181–213.) 9 Orange Labs Différentes formes d'apprentissage Il est nécessaire, lors de la mise en place d’un système basé sur un classifieur supervisé, de se poser certaines questions : – – – – – 10 Orange Labs Les exemples peuvent-ils être stockés en mémoire ? Quelle est la disponibilité des exemples : tous présents ? en flux ? visibles une seule fois ? Le concept est-il stationnaire ? L’algorithme doit-il être anytime ? Quel est le temps disponible pour mettre à jour le modèle ? Les réponses à ces questions doivent permettre de sélectionner les algorithmes adaptés à la situation et de savoir si on a besoin d’un algorithme incrémental, voire d’un algorithme spécifique aux flux. Flux - Qu'est ce qui change ? Les éléments du flux arrivent 'online' Pas de contrôle sur l'ordre d'arrivée des éléments du flux (accès séquentiel accès aléatoire) Lorsqu'un élément a été traité il est soit "archivé" soit détruit Le flux peut être de taille infinie (données non stockables?) + Temps CPU limité Mémoire limitée 11 Orange Labs … Propriétés d'un bon algorithme (Domingos et Hulten, 2001) (0) proposent les critères suivants : • durée faible et constante pour apprendre les exemples ; • lecture d’une seule fois des exemples et dans leur ordre d’arrivée ; • utilisation d’une quantité de mémoire fixée à priori ; • production d’un modèle proche de celui qui aurait été généré s’il n’y avait pas eu la contrainte de flux ; • possibilité d’interroger le modèle à n’importe quel moment (anytime) ; • possibilité de suivre les changements de concept. (0) Domingos, P. et G. Hulten (2001). Catching up with the data : Research issues in mining data streams. In Workshop on Research Issues in Data Mining and Knowledge Discovery. (1) Fayyad, U. M., G. Piatetsky-Shapiro, P. Smyth, et R. Uthurusamy (1996). Advances in Knowledge Discovery and Data Mining. Menlo Park, CA, USA : American Association for Artificial Intelligence (2) Hulten, G., L. Spencer, et P. Domingos (2001). Mining time-changing data streams. In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 97–106. ACM New York, NY, USA. (3) Stonebraker, M., U. Çetintemel, et S. Zdonik (2005). The 8 requirements of real-time stream processing. ACM SIGMOD Record 34(4), 42–47. 12 Orange Labs Différence incrémental / incrémental sur flux 13 Orange Labs Plan 14 Orange Labs Classification supervisée et flux de données Autour de la notion de concept Classifieurs incrémentaux : Tentative de taxonomie Classifieurs incrémentaux : Un panel introductif Méthodes d'évaluation Apprendre avec peu d'exemples Discussion Concepts, Contexte et dérives diffusion libre Concept : L'espace de tous les exemples possibles x D : un exemple PY : distribution de probabilité : distribution de probabilité de la classe d'appartenance f : 1;1 : le classifieur P ( x, y ) P ( x ) P ( y x ) 16 Orange Labs : concept cible Dérive de concept P1 ( x, y) P1 ( x) P1 ( y x) 17 Orange Labs P2 ( x, y ) P1 ( x) P2 ( y x) Distribution conditionnelle P2 ( x, y ) P2 ( x) P1 ( y x) Distribution des exemples P2 ( x, y ) P2 ( x) P2 ( y x) Les deux Dérive de concept Concept shift Gradual drift Incremental shift Reoccurring contexts 18 Orange Labs Contexte… Contexte i P1 ( x, y) P1 ( x) P1 ( y x) Contexte j P2 ( x, y) P2 ( x) P2 ( y x) Contexte = Période de temps sans dérive Flux = Séquence de contextes 19 Orange Labs Discussion Contexte i P1 ( x, y) P1 ( x) P1 ( y x) Contexte j P2 ( x, y ) P2 ( x) P2 ( y x) P2 ( x, y ) P1 ( x) P2 ( y x) La dérive "Covariate shift" existe-t-elle vraiment ? 20 Orange Labs Si oui même si on détecte cette dérive qu'en fait-on ? Car en préquential il n'y a pas d'ensemble de test (donc rien à pondérer) et si on plus on suppose pas de loi sur les distributions… Gérer la dérive de concept Contexte i P1 ( x, y) P1 ( x) P1 ( y x) Contexte j P2 ( x, y) P1 ( x) P2 ( y x) ? Gérer la dérive Détecter la dérive 21 Orange Labs Gérer la dérive de concept Contexte i • • 22 Orange Labs Contexte j Soit détecter et : 1) Réapprendre le modèle 2) Adapter le modèle courant 3) Adapter un résumé des données sur lequel se fonde le modèle courant 4) Travailler avec une séquence de : • Modèles • Résumés Ne rien détecter mais apprendre très régulièrement • Un modèle • Plusieurs modèles (pondérés) Détecter la dérive de concept Contexte i • • 23 Orange Labs Contexte j Surveiller les performances du modèle • Widmer et al (1996) dont gestion adaptative de la taille du fenêtre (FLORA) • … Surveiller la distribution des exemples • Test statistiques • … Détecter la dérive de concept Contexte i • • Contexte j Surveiller les performances du modèle • Widmer et al (1996) dont gestion adaptative de la taille du fenêtre (FLORA) • … Surveiller la distribution des exemples • Test statistiques • … ! Détection de dérive Détection de nouveautés 24 Orange Labs Plan 25 Orange Labs Classification supervisée et flux de données Autour de la notion de concept Classifieurs incrémentaux : Tentative de taxonomie Classifieurs incrémentaux : Un panel introductif Méthodes d'évaluation Apprendre avec peu d'exemples Discussion Classifieurs incrémentaux : Tentative de taxonomie diffusion libre Préambule 27 Orange Labs Une séquence de contexte ? Un seul concept : P(Y|X) constant La probabilité P(Y|X) ne varie pas dans le temps. Plusieurs concepts Dans le temps le concept peut complètement changer très rapidement. On a donc une suite de concepts à modéliser. Concept qui évolue "concept drift" ( concept "shift") Le concept évolue au cours du temps et il faut détecter les changements à l'aide des nouveaux exemples qui arrivent. Le changement dans ce cas est assez lent. Covariate shift (existe vraiment?) Contraintes Exemples Concept Algorithme Volume faible à moyen Volume important Un concept Rapidité apprentissage – mise à jour du modèle Nombre de paramètres Classifieur Précision 28 Orange Labs Plusieurs concepts Rapidité classification Flux de données Concept drift CPU / Disque / Mémoire Compréhensibilité Généralisation / sensibilité au bruit / robustesse Pourquoi ne pas utiliser les algorithmes classiques pour les flux ? La volumétrie trop importante oblige à n’utiliser qu’une partie des exemples et donc à ne pas utiliser tout le potentiel. Idée : Trouver un algorithme dédié aux flux qui sera capable d’utiliser tous les exemples pour l’apprentissage Domingos, P., & Hulten, G. (2000). Mining high-speed data streams. SIGKDD 29 Orange Labs Une taxonomie ? full example memory Store all examples • allows for efficient restructuring • good accuracy • huge storage needed Examples: ID5, ID5R, ITI no example memory Only store statistical information in the nodes • loss of accuracy (depending on the information stored or again huge storage needed) • relatively low storage space Examples: ID4 partial example memory Only store selected examples • trade of between storage space and accuracy Examples: FLORA, AQ-PM 30 Orange Labs Une taxonomie (Gama 2010) ? Detection Monitoring of performances Model Management Monitoring of properties of the classification model Monitoring of properties of the data Number Granularity Full Memory Weighting Aging Partial Memory Windowing Fixed Size Windows Weighting Aging Adaptive Size Window Weighting Aging "No memory" Weights Blind methods 'Informed methods' Adaptation 31 Orange Labs Data Management Taxonomie : Classifieur vs drift Réception d'un signal : il faut changer le modèle Pas de détection (pas d'analyse des données) 32 Orange Labs Plan 33 Orange Labs Classification supervisée et flux de données Autour de la notion de concept Classifieurs incrémentaux : Tentative de taxonomie Classifieurs incrémentaux : Un panel introductif Méthodes d'évaluation Apprendre avec peu d'exemples Discussion Classification supervisée incrémentale diffusion libre Classifieurs Naturellement incrémentaux : – Kppv, réseaux de neurones, naive Bayes A priori pas incrémentaux – SVM, arbres, … 35 Orange Labs Tableau comparatif Bien sur subjectif, dépendant de l'implémentation, … On note dans ce tableau : n le nombre d’exemples ; j le nombre d’attributs ; a le nombre de règles ; b le nombre moyen de prémices par règle et s le nombre de vecteurs supports. 36 Orange Labs Principaux algorithmes incrémentaux (sans flux) Arbre de décisions – ID4 (Schlimmer - ML’86) – ID5/ITI (Utgoff – ML’97) – SPRINT (Shaffer - VLDB’96) – … Bayésien naïf – Naturellement incrémentale pour la version naïve – Apprend très vite et faible variance (Domingos – ML’97) – Peut être combiné avec un arbre de décision : NBTree (Kohavi – KDD’96) 37 Orange Labs Principaux algorithmes incrémentaux (2) (sans flux) Réseaux de neurones – IOLIN (Cohen - TDM’04) – learn++ (Polikar - IJCNN’02),… Support Vector Machine – TSVM (Transductive SVM pour du semi-supervisé – Klinkenberg IJCAI’01), – PSVM (Proximal SVM – Mangasarian KDD’01),… – LASVM (Bordes 2005) Systèmes à base de règles – AQ15 (Michalski - AAAI’86), AQ-PM (Maloof/Michalski - ML’00) – STAGGER (Schlimmer - ML’86) – FLORA (Widmer - ML’96) – 38 Orange Labs Source d'idée pour les méthodes 'fadding factors' Principaux algorithmes sur les flux (1/2) Bases de règles – FACIL (Ferrer-Troyano – SAC’04,05,06) Ensemble de classifieurs – SEA (Street - KDD’01) basé sur C4.5 Plus proche voisin – ANNCAD (Law – LNCS‘05), découpage de l’espace en cellules de différentes tailles + ensemble. SVM – CVM (Tsang – JMLR’06), approximation de la solution optimale 39 Orange Labs Principaux algorithmes sur les flux (2/2) Arbres de décisions – – – – 40 Orange Labs Domingos : VFDT (KDD’00), CVFDT (KDD’01) Gama : VFDTc (KDD’03), UFFT (SAC’04) Kirkby : Ensemble d’Hoeffding Trees (KDD’09) del Campo-Avila : IADEM (LNCS’06) Plan 41 Orange Labs Classification supervisée et flux de données Autour de la notion de concept Classifieurs incrémentaux : Tentative de taxonomie Classifieurs incrémentaux : Un panel introductif Méthodes d'évaluation Apprendre avec peu d'exemples Discussion Comment s'évaluer ? diffusion libre Méthodes d’évaluation On se compare aux autres algorithmes par rapport aux : – taux de prédiction (avec ou sans contraintes de ressources) – vitesse : nombre d’exemples par seconde – en apprentissage – en classification – taille du modèle (mémoire, nombre de nœuds,…) – … On prend des jeux de données : – réels / artificiels – sans / avec changements de contexte – vrais flux / flux simulés 43 Orange Labs Méthodes d'évaluation : quels algorithmes ? Comparaison avec des algorithmes connus – – Sans flux : – C4.5 – ID3 – Bayésien Naïf – Forêt d’arbres Pour les systèmes en flux : Nom de l’algorithme VFDT CVFDT SEA VFDTc UFFT FACIL Ensemble d'Hoeffding Tree 44 Orange Labs Auteur principal Domingos Domingos Street Gama Gama Ferrer Kirkby Année 2000 2001 2001 2003 2005 2005 2008 Méthodes d'évaluation – quels jeux de données ? Jeu de test sans flux : UCI Jeu de test pour les flux – Artificiel : Hyperplan en mouvement, SEA, STAGGER, Random RBF Generator, LED Generator, Waveform Generator, Function Generator – Données réelles : Forest Covertype, Poker-Hand, Electricity, Proxy,… Nom STAGGER SEA Concept Hyperplan en mouvement Forest Covertype Poker Hand 45 Orange Labs Proposé par [Schlimmer1986] [Street2001] [Hulten2001] UCI UCI Type Artificiel Artificiel Artificiel Réel Réel Jeu de données ‘Orange’ : CRM, Publicité Boîte à outils : MOA (idem à Weka mais pour les flux) Taille infini infini infini 581K 1M Méthodes d'évaluation – quelle mesure ? Précision Plus de validation croisée – – données disponibles en nombre suffisant ce qui limite la variance volumétrie importante et arrivée en continue Sans changement de contexte 1. jeu de données indépendant et unique 2. jeu de données remis à jour régulièrement 3. « Préquentiel » : on utilise les nouveaux exemples qui arrivent comme jeu de test (avant de les apprendre) Avec changement de contexte L’approche 1. n’a plus de sens, seul les approches 2. et 3. peuvent être utilisées. NB : l’approche 3. est pessimiste mais l’utilisation de fenêtres temporelles ou de facteurs d’oubli permettent de se rapprocher d’un jeu de données indépendant 46 Orange Labs Evaluation préquentielle Pessimiste basée sur la somme (S) accumulée de la fonction de perte. n S L( yi , ŷi ) i 1 S M n On peut utiliser un facteur d’oubli ou une fenêtre pour se rapprocher de l’erreur d’un jeu de test indépendant (mais cela nécessite de la mémoire). 47 Orange Labs Et aussi Littlestone, N. et M. Warmuth (1989). The weighted majority algorithm. 30th Annual Symposium on Foundations of Computer Science, 256–261. – Mystake-bound 48 Orange Labs Plan 49 Orange Labs Classification supervisée et flux de données Autour de la notion de concept Classifieurs incrémentaux : Tentative de taxonomie Classifieurs incrémentaux : Un panel introductif Méthodes d'évaluation Apprendre avec peu d'exemples Discussion Apprendre avec peu… diffusion libre Sommaire 1. Positionnement et le pourquoi de cette étude ? 2. Classifieurs testés 3. Protocole expérimental – – Construction des jeux de données Critère d’évaluation : ALC 4. Résultats 5. Conclusion 51 Orange Labs – Recommandations – Travaux futurs Faire au plus simple ? Baseline Detection Monitoring of performances Model Management Monitoring of properties of the classification model Monitoring of properties of the data Number Granularity Full Memory Weighting Aging Partial Memory Windowing Fixed Size Windows Weighting Aging Adaptive Size Window Weighting Aging "No memory" Weights Blind methods 'Informed methods' Adaptation 52 Orange Labs Data Management Quel algorithme utiliser ? 53 Orange Labs Etude Impact de la taille de l’ensemble d’apprentissage : comportement en apprentissage des principaux algorithmes sur très peu de données : 2, 4, 8,16… exemples Plus large panel de jeux de données : 17 bases de l’UCI – variables catégorielles et/ou numériques – problèmes de classification binaire Plus large panel d’algorithmes : Modèle génératif Modèle discriminant 54 Orange Labs Classifieur linéaire Classifieur non linéaire Bayésien naïf Bayésien naïf sélectif Réseaux Bayésien IB1 Régression logistique Forêt d’arbres de décision, Arbre de décision Classifieurs testés A partir de Weka (Université de Waikato) – Arbres : J48 (C4.5), SimpleCart, RandomForest, ADTree – Bayésien : naïf supervisé/non supervisé – Réseaux Bayésiens – Régression logistique – Vote : VFI A partir de Khiops (Orange Labs) – Bayésien naïf (NB) – Bayésien naïf sélectif (SNB) Prétraitements : Variables catégorielles Basic grouping MODL : supervisé et régularisé 55 Orange Labs Variables numériques EqualFreq : 10 intervalles EqualWidth : 10 intervalles MODL : supervisé et régularisé Jeux de données : bases de l’UCI Nom de la base Adult Australian Breast Bupa Crx German Heart Hepatitis Horsecolic Hypothyroid Ionosphere Mushroom Pima SickEuthyroid Sonar Spam Tictactoe 56 Orange Labs Nombre de variables continues 7 6 10 6 6 24 10 6 7 7 34 0 8 7 60 57 0 Nombre de variables catégorielles 8 8 0 0 9 0 3 13 20 18 0 22 0 18 0 0 9 Taille 48842 690 699 345 690 1000 270 155 368 3163 351 8416 768 3163 208 4307 958 Protocole expérimental : construction des jeux de données 10 validations croisées Test : 10% Jeu de données : n exemples Test du modèle 57 Orange Labs Apprentissage : 90% Tirer 2,4,8,16, 32, 64... exemples 10 fois AUC ALC Construction du modèle sur les exemples Naïve Bayes, Random Forest,… Protocole expérimental : critère d’évaluation ALC AUC ALC : Area under the Learning Curve ALC 21 58 Orange Labs 22 23 ... Log2 du nombre d’exemples 2log2 0.9 n1 Résultat : un exemple de courbes sur la base UCI : Adult 59 Orange Labs Résultats : tableaux synthétiques Avec tous les exemples W-RF40 NB-EF-BG NB-EW-BG W-VFI-N NB-EF-M W-RF10 W-BN W-NB-S NB-EW-M W-ADT W-Log100 W-NB-NS NB-M-BG W-VFI SNB-EF-BG SNB-EW-BG NB-M-M SNB-EF-M SNB-EW-M SNB-M-BG SNB-M-M W-J48 W-SCart 60 Orange Labs Rang moyen 3,65 4,53 6,47 6,82 7,06 7,29 8,18 8,53 9,00 10,88 10,88 11,00 11,94 13,65 14,88 15,47 15,94 16,06 16,53 16,53 17,82 20,65 22,24 ALC 59,26 56,25 55,27 55,33 54,55 55,56 53,88 53,89 53,57 51,01 52,12 50,51 49,93 48,86 46,96 46,59 46,83 46,54 46,17 44,97 44,46 38,74 31,95 AUC finale 91,30 88,04 86,82 83,13 88,04 89,70 87,36 87,35 86,80 88,66 88,55 87,09 86,81 82,04 88,15 87,06 86,84 88,20 86,99 87,07 87,19 82,84 81,70 En s’arrêtant à 26 exemples Rang moyen ALC AUC finale W-RF40 47,10 d’arbres 86,21 Le bagging 4,35 ou boosting W-VFI-N 4,59 47,50 82,43 de décisions a de très bonnes NB-EF-BG 4,65 45,88 83,45 NB-EW-BG 5,41 : 45,55 82,34 performances W-RF10 6,88 43,26 84,09 Bayésien naïf apprend avec peu de Breiman L. NB-EF-M 7,47 43,01 83,29 données “Random: forest” NB-EW-M 8,29 42,72 82,12 W-BN 41,94 Domingos P,8,88 Pazzani M. 81,58 Machine learning. 2001 W-NB-S 8,88 41,92 81,28 On the optimality of the simple W-Log100 10,00 40,19 79,99 Les sont W-VFI méthodes 10,24régularisées 40,55 zero-one 77,91 Bayesian classifier under W-NB-NS 11,53 37,22 82,60 robustes : loss. Machine learning. W-ADT 11,76 36,43 83,02 Cucker NB-M-BG F, Smale 11,88 S. 36,85 80,92 SNB-EW-BG 15,65for Regularization 31,40 81,93 “Best Choices SNB-EF-BG 15,88 30,77 82,44 Parameters in Learning Theory: NB-M-M 16,18 31,60 80,29 SNB-EW-M 16,76 30,79 81,76 On the Bias-Variance Problem.” SNB-EF-M 17,12 30,09 82,20 Foundations of Computational SNB-M-BG 17,76 28,65 80,18 SNB-M-M 19,41 80,12 Mathematics. 2008 27,71 W-J48 19,94 24,80 74,14 W-SCart 22,47 15,66 70,52 Classement ? • Les classifieurs génératif sont meilleurs que les classifieurs discriminant lorsque le nombre d'exemple est faible et qu'il n'y a qu'un seul classifieur (Bouchard 2004) • Ensemble de classifieurs sont très bons (Bauer 1999) : • Bagging de classifieurs discriminants supplante un classifieur génératif (et avec une faible variance) (Breiman 1996) • Les méthodes "très" régularisées" sont très (trop) robuste (Cucker 2008) • Les ensembles de classifieurs génératifs sont à ajouter à l'étude… • Vis à vis des études partielles existantes : • Pas de contradiction avec nos conclusions 61 Orange Labs Recommandations 62 Orange Labs Random Forest avec une taille de forêt de 40 Bayésien naïf en « Equal Frequency » et « Basic Grouping » VFI pour des très petits jeux de données Combinaison d’algorithmes Résultats Un nouveau critère ? 63 Orange Labs Apport pour l’apprentissage incrémental et sur les flux Dans le cadre d’un flux, pourquoi ne pas mettre souvent à jour le classifieur en utilisant un algorithme qui apprend avec peu de données (RandomForest40 par exemple). Les intérêts sont : – classifieur toujours à jour – apprentissage rapide RF40 RF40 Flux (Waveform) 64 Orange Labs RF40 Utilisation sur les flux VFDT 82 81 80 79 78 77 76 75 74 0 1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000 9000000 1E+07 VFDT 65 Orange Labs Utilisation sur les flux 85 83 81 79 77 75 73 0 500000 1000000 1500000 RF40-4096 66 Orange Labs 2000000 VFDT 2500000 3000000 Approche similaire Gama a proposé VFDTc à KDD’03 – Amélioration de VFDT – Extension aux attributs numériques – On observe qu’il faut de 100 à 1000 exemples pour passer d’une feuille à un nœud Pourquoi ne pas mettre un classifieur dans les feuilles ? Lequel ? – Sur de petites quantités de données, la bayésien naïf fonctionne bien. De plus il est incrémental. Ajout d’un classifieur bayésien naïf dans les feuilles 67 Orange Labs Utilisation sur les flux 86 84 82 80 78 76 74 72 0 5 10 15 VFDTc (NB) 68 Orange Labs 20 RF40-4096 25 VFDT 30 35 Discussion… 69 Orange Labs