Apprentissage statistique: TD5 The Nearest - E. Contal
Transcription
Apprentissage statistique: TD5 The Nearest - E. Contal
Apprentissage statistique: TD5 The Nearest Neighbor Rule Emile Contal http://econtal.perso.math.cnrs.fr/teaching 8 février 2016 Exercice 1. Soient (X, Y, U ) et Dn = (X1 , Y1 , U1 ), . . . , (Xn , Yn , Un ) des variables aléatoires telles que : X est de mesure µ sur Rd , Y ∈ {0, 1} et E[Y | X] = η(X), U est uniformément distribué sur [0, 1] et indépendant de X, les triplets (Xi , Yi , Ui ) sont indépendants et identiquement distribués à (X, Y, U ). Soit x ∈ Rd . On peut alors définir Yi0 (x) = 1Ui ≤η(x) . On ordonne la séquence 0 de quadruplets (Xi , Yi , Yi , Ui ) i≤n par valeur croissante de kXi − xk, que l’on 0 note alors (X(i) (x), Y(i) (x), Y(i) (x), U(i) ) i≤n . On fixe k < n impair. La règle de prédiction gn des k-plus-proches-voisins est définie comme suit : ( Pk k 1 si i=1 Y(i) (x) > 2 gn (x) = 0 sinon . Ainsi que la règle de prédiction gnw des k-plus-proches-voisins pondérée par un vecteur w = w1 , . . . , wk : ( Pk Pk 1 si w i=1 wi 1Y(i) (x)=1 > i=1 wi 1Y(i) (x)=0 gn (x) = 0 sinon . 1. Soit gn0 la règle qui suivant η(X) et Y 0 : ( Pk 0 1 si i=1 Y(i) (x) > 0 gn (x) = 0 sinon . k 2 On définit Ln = Pr[gn (X) 6= Y | Dn ] et L0n = Pr[gn0 (X) 6= Y | Dn ]. Rappeler comment montrer que E[L0n ] − E[Ln ] → 0. 2. Soit LkNN = limn→∞ E[Ln ]. On note p = η(X). Montrer que : h h ii k LkNN = E p + (1 − 2p) Pr B k, p > | X , 2 et une formule similaire (moins propre) pour Lw l’erreur asymptotique de w la règle h P gn . Simplifieri la formule précédente dans le cas où p < 1/2 et k 0 Pr i=1 wi (2Yi − 1) = 0. 1 3. Soit 1}k tel que P Nl le nombre P de vecteurs z = (z1 , . . . , zk ) dans k{−1, 1zi =1 = l et wi zi > 0. Montrer que Nl + Nk−l = l . 4. En déduire que lorsque p < 1/2, avec q = 1 − p : h h i X i k Lw = E p + (1 − 2p) Pr B(k, p) > | X + Nl (pl q k−l − pk−l q l ) . 2 k l< 2 5. Dans le cas où p < 1/2, en déduire que pour tout w, Lw ≥ LkNN . Donner un résultat identique dans le cas où p > 1/2. 6. Utiliser un raisonnement similaire pour montrer que : L? ≤ · · · ≤ L(2k+1)NN ≤ L(2k−1)NN ≤ · · · ≤ LNN ≤ 2L? . On rappelle que LNN ≤ 2L? . Exercice 2. 1. On se place maintenant dans le cas où k est pair, et on définit la règle suivante des 2k-plus-proches-voisins : P2k si Y(i) (x) > k 1 Pi=1 2k gn (x) = 0 si Y i=1 (i) (x) < k Y(1) (x) sinon . Montrer que l’erreur asymptotique L2kNN de cette règle vérifie : L(2k−1)NN = L2kNN . Exercice 3. Dans cet exercice on cherche à déterminer des bornes sur LkNN −L? d’après la formule donnée en question 1.2 qui peut se réécrire avec = min{p, q} : h h ii k LkNN = E + (1 − 2) Pr B(k, ) > | X . 2 1. Montrer que : 1 LkNN − L? ≤ √ . ke Indice : l’inégalité de Hoeffding une fois de plus. 2. Montrer que : r 2LNN . k Indice dans l’ordre : Markov, Cauchy-Schwarz, V[B(k, )], Jensen. ? LkNN − L ≤ 3. Dire ce qu’on pourrait faire pour améliorer ces résultats. 2