Apprentissage statistique: TD8 Data

Transcription

Apprentissage statistique: TD8 Data
Apprentissage statistique: TD8
Data-Dependant Partitioning
Emile Contal
http://econtal.perso.math.cnrs.fr/teaching
14 mars 2016
Exercice 1. On considère ici les classifieurs par partitionnement de R où les
partitions dépendent des données Dn de façon déterministes suivant la règle
Pn = πn (Dn ). Soit la séquence de règles (πn ), le classifieur associé fonctionne
par vote à l’intérieur des cellules An (x). On notera
Fn la famille de toutes
les partitions possibles pour la règle πn : Fn = πn (D) : D ∈ (R × {0, 1})n .
En utilisant le théorème et les lemmes suivants, montrer qu’un classifieur par
partitionnement de R tel que les intervalles contiennent au moins an et au plus
bn points, est fortement consistant lorsque an → ∞ et bnn → 0.
Théorème 1 (Consistance forte). On note diam(A) = supx,y∈A kx − yk, SM
la boule fermée de rayon M centrée à l’origine, et P (M ) la restriction d’une
partitionP à la boule SM. De même si F est une collection de partitions, on note
F (M ) = P (M ) : P ∈ F . On introduit ∆n (F (M ) ) une mesure de complexité 1
d’une famille de partition. Soient F1 , F2 , . . . comme précédemment, si on a :
(M )
∀M < ∞ ,
log ∆n (Fn
n
n
∀SM et γ > 0 , µ
)
→ 0,
o
x : diam An (x) ∩ SM > γ
→ 0 p.s,
alors le classifieur associé est fortement consistant.
Lemme 1. Soit F (M ) une famille de partitions
telle qu’il existe une constante
N vérifiant pour tout P (M ) ∈ F (M ) que P (M ) ≤ N , alors :
∆n (F (M ) ) ≤ 2N ∆∗n (F (M ) ) ,
où ∆∗n (F (M ) ) est le nombre maximal de façons de partitionner n points avec des
éléments de F (M ) .
Lemme 2. Soit I l’ensemble des intervalles de R, sup |µ(I) − µn (I)| → 0 p.s.
I∈I
Lemme 3. Soit H l’entropie binaire, alors log
s
t
≤ sH( st ).
1 On ne donne pas sa définition ici mais on pourra la borner en utilisant le Lemme 1. Les
plus curieux iront voir le shatter coefficient et la VC dimension.
1

Documents pareils