Apprentissage statistique: TD8 Data
Transcription
Apprentissage statistique: TD8 Data
Apprentissage statistique: TD8 Data-Dependant Partitioning Emile Contal http://econtal.perso.math.cnrs.fr/teaching 14 mars 2016 Exercice 1. On considère ici les classifieurs par partitionnement de R où les partitions dépendent des données Dn de façon déterministes suivant la règle Pn = πn (Dn ). Soit la séquence de règles (πn ), le classifieur associé fonctionne par vote à l’intérieur des cellules An (x). On notera Fn la famille de toutes les partitions possibles pour la règle πn : Fn = πn (D) : D ∈ (R × {0, 1})n . En utilisant le théorème et les lemmes suivants, montrer qu’un classifieur par partitionnement de R tel que les intervalles contiennent au moins an et au plus bn points, est fortement consistant lorsque an → ∞ et bnn → 0. Théorème 1 (Consistance forte). On note diam(A) = supx,y∈A kx − yk, SM la boule fermée de rayon M centrée à l’origine, et P (M ) la restriction d’une partitionP à la boule SM. De même si F est une collection de partitions, on note F (M ) = P (M ) : P ∈ F . On introduit ∆n (F (M ) ) une mesure de complexité 1 d’une famille de partition. Soient F1 , F2 , . . . comme précédemment, si on a : (M ) ∀M < ∞ , log ∆n (Fn n n ∀SM et γ > 0 , µ ) → 0, o x : diam An (x) ∩ SM > γ → 0 p.s, alors le classifieur associé est fortement consistant. Lemme 1. Soit F (M ) une famille de partitions telle qu’il existe une constante N vérifiant pour tout P (M ) ∈ F (M ) que P (M ) ≤ N , alors : ∆n (F (M ) ) ≤ 2N ∆∗n (F (M ) ) , où ∆∗n (F (M ) ) est le nombre maximal de façons de partitionner n points avec des éléments de F (M ) . Lemme 2. Soit I l’ensemble des intervalles de R, sup |µ(I) − µn (I)| → 0 p.s. I∈I Lemme 3. Soit H l’entropie binaire, alors log s t ≤ sH( st ). 1 On ne donne pas sa définition ici mais on pourra la borner en utilisant le Lemme 1. Les plus curieux iront voir le shatter coefficient et la VC dimension. 1