Nichtparametrische Statistik | Skript zur Vorlesung im - Hu
Transcription
Nichtparametrische Statistik | Skript zur Vorlesung im - Hu
Nichtparametrische Statistik Skript zur Vorlesung im Wintersemester 2012/13 Markus Reiÿ Humboldt-Universität zu Berlin [email protected] VORLÄUFIGE FASSUNG: 12. Februar 2013 Inhaltsverzeichnis 1 Einführung 1 1.1 Statistische Modellierung . . . . . . . . . . . . . . . . . . . . 1 1.2 Parametrische und nichtparametrische Statistik . . . . . . . . 2 2 Dichteschätzung 4 2.1 Modell und empirische Verteilung . . . . . . . . . . . . . . . . 4 2.2 Kernschätzer 5 2.3 Bias-Varianz-Dilemma 2.4 Glattheitsklassen und asymptotisches Risiko . . . . . . . . . . 7 2.5 Gleichmäÿige Fehlerschranke . . . . . . . . . . . . . . . . . . . 14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Nichtparametrische Regression 6 17 3.1 Modell und Signal in weiÿem Rauschen . . . . . . . . . . . . . 3.2 Lokal-polynomiale Schätzer . . . . . . . . . . . . . . . . . . . 18 3.3 Fehleranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4 Projektionsschätzer . . . . . . . . . . . . . . . . . . . . . . . . 26 3.5 Wörterbücher und LASSO-Methode . . . . . . . . . . . . . . 32 3.6 Weitere Schätzmethoden . . . . . . . . . . . . . . . . . . . . . 37 3.7 Übertragung auf Dichteschätzung (optional) . . . . . . . . . . 38 4 Untere Schranken 4.1 Allgemeine Strategie 4.2 Dichteschätzprobleme 17 41 . . . . . . . . . . . . . . . . . . . . . . . 41 . . . . . . . . . . . . . . . . . . . . . . 49 I 5 Wahl des Glättungsparameters 53 5.1 Unverzerrte Risikoschätzung und Block-Stein-Schätzer . . . . 5.2 Bandweitenwahl durch Kreuzvalidierung . . . . . . . . . . . . 59 5.3 Thresholding und Wavelets . . . . . . . . . . . . . . . . . . . 72 5.4 Lepski-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . 81 6 Klassikation und Lerntheorie 53 86 6.1 Klassikation und Bayes-Klassizierer . . . . . . . . . . . . . 86 6.2 Minimierung des empirischen Risikos . . . . . . . . . . . . . . 87 6.3 Support Vector Machines 89 . . . . . . . . . . . . . . . . . . . . II 1 Einführung 1.1 Statistische Modellierung Aufgabe der Statistik ist es, auf Grund von zufälligen Beobachtungen Rückschlüsse auf zugrundeliegende Modellparameter zu ziehen. Zur mathematischen Formalisierung benötigen wir zunächst ein Beobachtungsmodell. Wir statistisches Modell einen Messraum (X , F ) versehen mit einer Familie (Pϑ )ϑ∈Θ von Wahrscheinlichkeitsmaÿen, wobei Θ 6= ∅ eine beliebige Parametermenge bezeichnet. Beobachtungen in diesem Modell sind beliebige Zufallsvariablen Y . Wie gewohnt, spielt der zugrundeliegenbezeichnen daher als de Raum häug keine Rolle, und wir benutzen nur, dass die Beobachtung Y eine von ϑ X1 , . . . , Xn unabhängige, Pϑ , so heiÿt (X1 , . . . , Xn ) abhängige Verteilung besitzt. Sind identisch verteilte Zufallsvariablen unter jedem mathematische Stichprobe vom Umfang n. Ein Schätzer ϑ̂ des unbekannten Parameters ϑ ist eine messbare Funktion der Beobachtungen Y , insbesondere also wiederum eine Zufallsvariable, deren Verteilung im Allgemeinen von ϑ abhängt. Allgemeiner wird ein abgeleiteter Parameter g(ϑ) für eine Funktion g geschätzt durch eine messbare Funktion ĝ der Beobachtungen. Wir messen den Fehler dieses Schätzers mittels einer nicht-negativen Verlustfunktion `(ĝ, g(ϑ)) und bezeichnen als Risiko oder weniger genau Fehler dieses Schätzers bei Vorliegen des wahren, aber unbekannten Parameters ϑ den mittleren Verlust Z `(ĝ(Y (x)), g(ϑ)) Pϑ (dx). R(ĝ, ϑ) := Eϑ [`(ĝ, g(ϑ))] := eine X ϑ ist, es also im Allgemeinen sinnĝ im Modell zu sprechen, da für verschiedene Beachte, dass das Risiko eine Funktion von los ist, von dem besten Schätzer ϑ∈Θ Schätzer ganz unterschiedlich groÿe Fehler besitzen können. Wir wer- den Vergleichskriterien im Laufe der Vorlesung kennenlernen. Schlieÿlich sei noch darauf hingewiesen, dass die gesamte Modellierung in der Statistik vor der Datenauswertung stattnden muss. gen Y (x) konkreten x ∈ X und führen Schätzwerten ĝ(Y (x)). für ein 1.1 Beispiel. sind realisierte Beobachtun- N (µ, 1)-verteilte mathematische Stichµ ∈ R. Diese kann zum Beispiel mon delliert werden als Identität auf dem Raum (R , BRn , (N (µ1, En ))µ∈R ) mit n > Einsvektor 1 = (1, 1, . . . , 1) ∈ R und Einheitsmatrix En ∈ Rn×n . P n 1 Das Stichprobenmittel µ̂ := i=1 Xi oder auch der Stichprobenmedian n µ̃ := med(X1 , . . . , Xn ) sind natürliche Schätzer für µ. Allerdings ist auch eine konstante µ̄ := π/3 ein zulässiger Schätzer. Häug wird ein quadratischer 2 Verlust `(x, y) := (x − y) betrachtet, der zum quadratischen Fehler (MSE: mean squared error) führt: R(µ̂, µ) = Eµ [(µ̂ − µ)2 ]. Eine einfache Rechnung 1 2 ergibt R(µ̂, µ) = n sowie R(µ̄, µ) = (µ − π/3) , für µ̃ sind die Ausdrücke Es sei X1 , . . . , Xn Daten zu realisierten Schätzern und somit zu eine probe mit unbekanntem Mittelwert 1 µ = π/3 komplizierter. Für ist µ̄ sicherlich der beste Schätzer, allerdings ist er für die meisten anderen Werte von µ sehr schlecht. Ist der abgeleitete Parameter g(ϑ) reellwertig, so heiÿt ein Schätzer ĝn unverzerrt oder erwartungstreu (unbiased), falls Eϑ [ĝ] = g(ϑ) für alle ϑ ∈ Θ gilt. Der Bias Eϑ [ĝ] − g(ϑ) misst die Verzerrung. Für den MSE ist die BiasVarianz-Zerlegung von grundlegender Bedeutung: Eϑ [(ĝ−g(ϑ))2 ] = Eϑ [((ĝ−Eϑ [ĝ])+(Eϑ [ĝ]−g(ϑ)))2 ] = (Eϑ [ĝ] − g(ϑ))2 + Varϑ (ĝ) . | {z } | {z } quadrierter Bias Varianz (1.1) 1.2 Parametrische und nichtparametrische Statistik Die sogenannte parametrische Statistik dimensionaler Parameter, das heiÿt baren Struktur des Rk betrachtet Θ ⊆ Rk . den Fall endlich- Auf Grund der dierenzier- und einfacher Kompaktheitsargumente gibt es in der parametrischen Statistik starke Aussagen über Konstruktion und Eigenschaften von Schätzern. Häug wird eine asymptotische Perspektive eingenommen, beispielsweise der Fall wachsenden Stichprobenumfangs oder fallenden Rauschniveaus. Wir erwähnen kurz ein Hauptresultat der LikelihoodTheorie. X1 , . . . , Xn eine mathematische Stichprobe, die bezüglich einer fϑ auf R verteilt sei mit ϑ ∈ Θ ⊆ Rk unbekannt. Mit L(ϑ, x) := fϑ (x) wird die Likelihoodfunktion bezeichnet. Der MaximumEs sei Lebesguedichte Likelihoodschätzer ist deniert als ϑ̂n := argmaxϑ∈Θ n Y L(ϑ, Xi ) = argmaxϑ∈Θ i=1 n X log(L(ϑ, Xi )), i=1 sofern dies wohldeniert ist. Falls nun Θ eine oene Menge ist und L(ϑ, x) ϑ dierenzierbar ist mit Ableitung (Gradient) L̇(ϑ, x), erhalten L̇( ϑ̂n , Xi )/L(ϑ̂n , Xi ) = 0 als Schätzgleichung. Mit dem Gesetz der i=1 bezüglich wir Pn groÿen Zahlen und dem zentralen Grenzwertsatz kann man unter weiteren Regularitätsbedingungen (z.B. höherer Dierenzierbarkeitsordnung) folgende Asymptotik für n→∞ √ Dabei bezeichnet nachweisen: ϑ n(ϑ̂n − ϑ) ⇒ N (0, I −1 (ϑ)), I(ϑ) P ϑ ∈ Θ. die sogenannte Fisher-Informationsmatrix. Insbe- sondere ist in regulären Modellen die stochastische Konvergenzordnung (ϑ̂n − ϑ) = OPϑ (n−1/2 ) bestmöglich. Die Rate rametrischen Modellen vom Umfang n n−1/2 ist in den meisten pa- typisch und leitet sich aus Varianten des (mehrdimensionalen) zentralen Grenzwertsatzes her. 2 EqBiasVar In der nichtparametrischen Statistik ist die Parametermenge Θ unend- lichdimensional, es wird keine einfache Parametrisierung des Modells vorgenommen. Manchmal wird dieser Zugang daher agnostisch genannt. Häug ist der unbekannte Parameter die Dichte der Beobachtungen selbst (Dichteschätzung) oder ein unbekannter funktionaler Zusammenhang. Bei der gression Re- werden die Beobachtungen modelliert durch Yi = f (xi ) + εi , i = 1, . . . , n, (εi ) (meist E[εi ] = 0) und deterministischen oder Designpunkten xi ∈ D ⊆ Rd . Lineare Regression behandelt im einfachsten Fall lineare Regressionsfunktionen f ∈ F = {g : D → R | g(x) = a> x + b, a ∈ Rd , b ∈ R}, während in der nichtparametrischen Regression die Funktionsklasse F aus allen Funktionen g : D → R besteht, die gewisse mit statistischen Fehlern zufälligen allgemeine Bedingungen wie Stetigkeit, Monotonie oder Dierenzierbarkeit erfüllen. Wegen fehlender Kompaktheits- oder Dierenzierbarkeitseigenschaften im Parameterraum bedarf es in der nichtparametrischen Statistik neuer Methoden und mathematischer Analysen. Selbst wenn es a priori gute Gründe gibt, ein parametrisches Modell anzunehmen, dienen nichtparametrische Verfahren häug dazu, Modellmisspezikationen anhand der Daten aufzudecken (goodness-of-t-Tests). In der Praxis gibt es immer mehr hochdimensionale Daten und Modelle, zum Beispiel in der Bildverarbeitung, bei der Genanalyse oder dem Data-Mining. Wenn nicht gleichzeitig enorme Stichprobenumfänge vorliegen, greift die Asymptotik der parametrischen Statistik nicht und fast immer kommen nichtparametrische Verfahren zum Einsatz. Schlieÿlich seien noch ein paar Literaturhinweise gegeben. Zum Hintergrund parametrischer Schätztheorie siehe Lehmann and Casella (1998). Nichtparametrische Schätzmethoden und ihre mathematische Analyse werden inzwischen in vielen Büchern behandelt. Zur eher praktisch orientierten Dichteschätzung ist Silverman (1986) ein Klassiker, Wand and Jones (1995) ein etwas aktuelleres praxisorientiertes Lehrbuch zur Kernschätzung. Eine umfassende Monographie zur nichtparametrischen Regression haben Györ, Kohler, Krzy»ak, and Walk (2002) vorgelegt, Härdle (1991) behandelt dieses Thema mit Anwendungsbezug. Der Modellwahlansatz ist umfassend und gut aufbereitet in Massart (2007) zu nden, während sich Bühlmann and van de Geer (2011) der hochaktuellen Lasso-Methode widmen. Aus einem Vorlesungsskript für Mathematiker hervorgegangen und für Theorievermittlung am empfehlenswertesten ist Tsybakov (2009). Eine umfassende Einführung in aktuelle nichtparametrische Methoden und insbesondere ihre Anwendungen im Gebiet des Statistischen Lernens gibt Hastie, Tibshirani, and Friedman (2001), während Efromovich (1999) eher breit auf unterschiedliche statistische Anwendungen eingeht. Schlieÿlich sei Wasserman (2006) für eine breite und aktuelle Übersicht mit intuitiven Erklärungen (aber meist ohne Beweise) empfohlen. 3 2 Dichteschätzung 2.1 Modell und empirische Verteilung Wir werden folgendes Modell für die Dichteschätzung betrachten, das als Grundlage für vielseitige Verallgemeinerungen und spezische Anwendungen dient. 2.1 Denition. R Fd := {f : Rd → [0, ∞) messbar | f = 1} die Mend ge aller Lebesguedichten auf R . Für ein unbekanntes f ∈ Fd beobachten wir eine Stichprobe X1 , . . . , Xn ∼ f i.i.d. vom Umfang n. Mit Pf und Ef Es sei wird die Wahrscheinlichkeit bzw. der Erwartungswert in diesem Modell bezeichnet. Für einen Schätzer fˆn von f werden wir meist eines der folgenden Risiken betrachten: Punktweises (quadratisches) Risiko: für ein x∈R d Rx (fˆn , f ) := Ef [(fˆn (x) − f (x))2 ] ; Quadratisches Risiko (MISE): MISED (fˆn , f ) R Ef [ D (fˆn (x) − f (x))2 dx] für eine messbare Teilmenge D ⊆ Rd (sofern fˆn , f ∈ L2 (D)); := Gleichmäÿiges Risiko: messbare RD,∞ (fˆn , f ) := Ef [kfˆn (x) − f (x)kL∞ (D) ] d ∞ Teilmenge D ⊆ R (sofern fˆn , f ∈ L (D)). für eine Grundidee jeder Dichteschätzung ist es, die empirische Verteilung von (X1 , . . . , Xn ) zu verwenden. Beachte dazu, d = 1 die empirische Verteilungsfunktion dass im eindimensionalen Fall n F̂n (x) := 1X 1(Xi 6 x), n x ∈ R, i=1 F punktweise erwartungstreu und konsistent E[F̂n (x)] = F (x) und limn→∞ F̂n (x) = F (x) gilt fast sicher für alle x ∈ Rd . Der I Übung Satz von Glivenko-Cantelli sichert sogar gleichmäÿige Konvergenz limn→∞ supx∈R |F̂n (x) − F (x)| = 0 fast sicher. Darüberhinaus −1/2 : √n(F̂ (x) − liefert der zentrale Grenzwertsatz die Konvergenzrate n n F (x)) → N (0, F (x)(1 − F (x)). 0 Wenn wir nun wissen, dass eine Dichte f existiert, so gilt natürlich F = f 0 (ggf. im schwachen Sinn), allerdings ist der naive Ansatz fˆn (x) := F̂n (x) nicht die wahre Verteilungsfunktion schätzt: möglich, da die empirische Verteilungsfunktion nicht (im Funktionensinn) dierenzierbar ist. Jedoch ist Maÿes F̂n die Verteilungsfunktion des empirischen n µ̂n := 1X δXi , n i=1 wobei δx x bezeichnet. Das empirische Maÿ d-dimensionalen ein wohldeniertes zufälliges Maÿ auf den Bod von R . Es sei bemerkt, dass unter unserer i.i.d.-Annahme µ̂n das Punkt- oder Diracmaÿ in ist auch im relmengen 4 (wie auch F̂n ) eine suziente Statistik ist und damit kein Informationsver- X1 , . . . , Xn lust beim Übergang von den Beobachtungen kann µ̂n F̂n als Ableitung von µ̂n auftritt. Man im Distributionensinn interpretieren. Um je- doch zu einem funktionswertigen Schätzer µ̂n zu fˆn der Dichte f zu gelangen, muss noch geglättet werden. 2.2 Kernschätzer 2.2 Denition. Eine messbare Funktion K : Rd → R R mit Kern oder Kernfunktion. Man setzt für einen Kern K weite h > 0 Kh (x) := h−d K(h−1 x), x ∈ Rd , heiÿt so dass hier, Kh werden wiederum auch Kernfunktion reguläre KH (x) = |det(H −1 )|K(H −1 x) diag(h, . . . , h)). ist. Rd Allgemeiner, Bandweitenmatrizen H K(x) dx = 1 Band- und eine ∈ jedoch nicht Rd×d sowie betrachtet (der skalare Fall entspricht H = Kernfunktionen werden benutzt, um das empirische Maÿ zu glätten. h → 0 g ∗ Kh (x) := Dies ist dieselbe Idee wie die der Diracfolgen in der Analysis. Für Kh gegen δ0 in dem Sinne, dass für Faltungen g(x − y)Kh (y)dy unter Regularitätsbedingungen an K und g : Rd → R gilt lim g ∗ Kh (x) = g(x) = g ∗ δ0 (x). konvergiert R die Funktion h→0 2.3 Denition. Für einen Kern K und eine Bandweite h deniert man den Kerndichteschätzer fˆn,h (x) := Kh ∗ µ̂n (x) := n Z d Kh (x−y)µ̂n (dy) = R 1X Kh (x−Xi ), n x ∈ Rd . i=1 Die Abhängigkeit von der Kernfunktion K wird in der Notation meist un- terdrückt. BspKern 2.4 Beispiele. (a) K(x) = 1([−1/2, 1/2]d )(x) ist Kern mit Kh (x) = h−d 1([−h/2, h/2]d ), so dass n 1 X #{i : |Xi − x|∞ 6 h/2} fˆn,h (x) = 1([−h/2, h/2]d )(x − Xi ) = d nh nhd i=1 (für d=1 heiÿt (b) Für d=1 ist K Rechteckkern und fˆn,h Fensterschätzer). K(x) = (1 − |x|)1([−1, 1])(x) 5 der Dreieckskern. d = 1 heiÿt K(x) = (c) Für 3 √ (1−x2 /5)1[−√5,√5] (x) 4 5 Epanechnikov-Kern. Dieser hat theoretisches Interesse, da der zugehörige Kernschätzer eine gewisse Optimalitätseigenschaft besitzt, vergleiche Silverman (1986). (d) Allgemein ist jede Wahrscheinlichkeitsdichte ein Kern, insbesondere der Gauÿkern K(x) = (2π)−d/2 e−|x| 2 /2 . ProQd K1 , . . . , Kd können zum d-dimensionalen d K (x ) , x = (x , . . . , x ) ∈ R , kombiniert 1 d i=1 i i (e) Eindimensionale Kerne duktkern K(x) = werden. sinc-Kern K(x) = π −d (f ) Der Qd i=1 sin(xi )/xi ist ein Beispiel eines nicht überall positiven (und nur uneigentlich integrierbaren, bei Null durch K(0) = π −d stetig zu ergänzenden) Kerns, der wegen seiner FourierR ihx,ui dx = 1([−1, 1]d )(u) wichtig ist. darstellung FK(u) := K(x)e Rd I Übung Es gilt nämlich F fˆn,h (u) = F(Kh ∗ µ̂n )(u) = FKh (u)F µ̂n (u) = FK(hu)ϕ̂n (u) empirischen charakteristischen Funktion ϕ̂n (u) Pn derihu,X j i. Daher ergibt sich beim sinc-Kern gerade j=1 e spektrale cut-o-Schätzer: fˆn,h (x) = F −1 ϕ̂n 1([−h−1 , h−1 ]d ) (x). mit 1 n := der 2.5 Lemma. I Übung Ist die Kernfunktion K eine Wahrscheinlichkeitsdichte (d.h. nichtnegativ), so ist der Kerndichteschätzer wiederum eine Wahrscheinlichkeitsdichte. Ist K keine Wahrscheinlichkeitsdichte, so ist max(fˆn,h , 0) stets eine Verbesserung von fˆn,h für die oben angegebenen Risiken, allerdings ist auch dieser Schätzer im Allgemeinen keine Wahrscheinlichkeitsdichte. ichteSchaetzmethoden 2.6 Bemerkung. Selbst im Fall des Rechteckkerns darf der Kerndichte- schätzer nicht mit einem I Übung Histogramm sowie I Übung lokalen Polynomschätzer verwechselt werden. Verallgemeinerungen des Kernschätzers bilden die kNN-Schätzer (k th nearest neighbour). 2.3 Bias-Varianz-Dilemma Der mittlere quadratische Fehler eines Kerndichteschätzers lässt sich leicht bestimmen. SatzKernBV 2.7 Satz. Für den Kerndichteschätzer fˆn,h gilt: 1 Rx (fˆn,h , f ) = (Kh ∗ f − f )(x)2 + (Kh2 ∗ f )(x) − (Kh ∗ f )2 (x) , n Z 1 MISED (fˆn,h , f ) = (Kh ∗ f − f )(x)2 + (Kh2 ∗ f )(x) − (Kh ∗ f )2 (x) dx, n D sofern die entsprechenden Risiken endlich sind. 6 Beweis. EqBiasVar Nach der Bias-Varianz-Zerlegung (1.1) folgt Ef [(fˆn,h (x) − f (x))2 ] = (Ef [fˆn,h (x) − f (x)])2 + Varf (fˆn,h (x)) Z 2 1 = Kh (x − y)f (y) dy − f (x) + Varf (Kh (x − X1 )) n 1 = (Kh ∗ f − f )(x)2 + (Kh2 ∗ f )(x) − (Kh ∗ f )2 (x) . n Integration über x ∈ D ergibt nach dem Satz von Tonelli das zweite Ergebnis. Wir wollen uns die oberen Fehlerschranken in Hinblick auf ihre Gröÿenordnungen anschauen. Wir beschränken uns beispielhaft auf das punktweise (Kh ∗ f − f )(x)2 ist unabhängig vom Stichprobenumfang n und konvergiert für h → 0 im Allgemeinen (siehe z.B. Lemma LemKonsistenz −1 2.8 unten) gegen Null. Der Varianzterm hingegen ist von der Ordnung n im Stichprobenumfang, und für hinreichend reguläre Kernfunktion K und Dichte f folgt für h → 0 Z 2 −d Kh ∗ f (x) = h K 2 (w)f (x − hw) dw = O(h−d ), Risiko. Der Bias-Term Rd während Dilemma: Kh ∗ f (x) = O(1) Bias-Varianz- gilt. Uns oenbart sich das je kleiner die Bandweite h gewählt wird, desto unverzerrter ist die Schätzung, desto gröÿer ist jedoch ihre Varianz. Dies ist auch intuitiv einsichtig, weil der Schätzer bei kleinerem h weniger stark geglättet wird, so dass zwar Details besser aufgelöst werden, es aber auch zu vermehrten Oszillationen kommt. Die Bandweite h sollte vom Statistiker idealerweise so gewählt werden, dass das gesamte Risiko minimal ist: h∗ := argminh>0 Rx (fˆn,h , f ). (2.1) Betrachtet man jedoch Bias- und Varianz-Term, so stellt man fest, dass diese nicht nur von den bekannten Gröÿen n und K, sondern auch von der unbekannten und gerade zu schätzenden Dichtefunktion Bandweite h∗ f abhängen. Die ist also in praxi nicht bekannt und kann nur als theoretische Messlatte dienen bei der Wahl der Bandweite durch den Statistiker. Man nennt h∗ aus naheliegenden Gründen Orakel-Bandweite. Im folgenden wer- den wir zunächst den Minimax-Ansatz zur Bandweitenwahl untersuchen. 2.4 Glattheitsklassen und asymptotisches Risiko LemKonsistenz 2.8 Lemma. Der Kern K liege in L1 (Rd )∩L2 (Rd ) und f sei beschränkt auf R sowie stetig bei x ∈ Rd . Wählt man eine Folge hn → 0 mit hdn n → ∞ für n → ∞, so ist fˆn,hn (x) ein konsistenter Schätzer von f (x). d 7 Eqhast Beweis. SatzKernBV Wir wenden Satz 2.7 an und schlieÿen mit dominierter Konvergenz: Z Z Khn ∗ f (x) = hdn Kh2n ∗ f (x) = Mit d ZR Rd f (x − hn z)K(z) dz → f (x)K(z) dz = f (x), Z 2 f (x − hn z)K(z) dz → f (x) K(z)2 dz. Rd Rd −1 → 0 schlieÿen wir, dass R (fˆ h−d x n,hn , f ) gegen Null konvergiert. n n Dies lässt viel Freiheit für die asymptotische Wahl der Bandweite und kann zu beliebig langsamer Konvergenz führen. Sofern die Dichtefunktion beliebig aus Fd f sein kann, haben wir jedoch keinen Ansatzpunkt für eine geeignete Wahl der Bandweite h: f kann sowohl stark oszillierend als auch von sehr geringer Variation sein. Eine natürliche Annahme ist daher, von f eine gewisse Regularität vorauszusetzen. Wir beschreiben diese Vorkenntnis durch Normschranken in Glattheitsklassen. 2.9 Denition. chung. Ist Ableitung hxi := max{m ∈ N | m < x} β ∈ N ein Multiindex, so bezeichnet g (β) Pd ∂ |β| g βd mit |β| = β1 k=1 βk . Setze mit strikter Unglei- d für g : Rd → R die ∂x1 ···∂xd α > 0 und eine oene Menge D ⊆ Rd sagen wir, dass f : Rd → R α in C (D) liegt, sofern f hαi-mal stetig dierenzierbar auf D ist und jede d Ableitung der Ordnung β ∈ N mit |β| = hαi die Hölder-Bedingung Für sup x,y∈D, x6=y erfüllt. Als Rd |f (β) (x) − f (β) (y)| <∞ |x − y|α−hαi Hölderklasse HD (α; R, L) mit Parametern α, R, L > 0 auf D⊆ bezeichnen wir die Menge n f ∈ C α (D) sup |f (x)| 6 R, max |β|=hαi x,y∈D, x6=y x∈D Im einfachsten Fall sup α61 und D = Rd o |f (β) (x) − f (β) (y)| 6 L . |x − y|α−hαi kann die Hölderannahme direkt zur Beschränkung des Bias-Terms verwendet werden: Z |(f ∗ Kh − f )(x)| = (f (ξ) − f (x))Kh (x − ξ) dξ Z 6 L|ξ − x|α |Kh (x − ξ)| dξ Z α = Lh |w|α |K(w)| dw. Sofern das letzte Integral endlich ist, ergibt sich also die Ordnung zwar gleichmäÿig über alle O(hα ) und f ∈ HRd (α; R, L). Für α > 1 lässt sich diese Rate verbessern, sofern die Kernfunktion eine polynomiale Exaktheitsbedingung erfüllt. 8 2.10 Denition. K : Rd → R ist von der Ordnung m ∈ N0 , sofern β ∈ N mit |β| ∈ {1, . . . , m} gilt Ein Kern d für alle Multiindizes Z (xβ := xβ1 1 · · · xβd d ). xβ K(x) dx = 0 Rd 2.11 Beispiele. (a) K(x) = 1([−1/2, 1/2]d )(x) besitzt die Ordnung 1, jedoch nicht die Ordnung 2. Dies gilt auch für den Dreieckskern, den EpanechnikovKern und den Gauÿ-Kern und allgemein für symmetrische nichtnegative Kerne, weil für sie R x21 K(x) dx stets strikt positiv ist. R 9−15x2 K(x) = 1([−1, 1])(x) erfüllt K = 1, 8 R 2m−1 R 2 K(x) dx = 0 für m ∈ N (aus Symmetrie) und x K(x)dx = 0, R x4 9 15 x K(x)dx = 40 − 56 6= 0. Also ist K ein Kern der Ordnung 3. I Übung Man kann allgemein zeigen, dass für jedes p ∈ N genau ein Polynom P vom Grad höchstens p existiert, so dass K(x) = P (x)1[−1,1] (x) ein Kern der Ordnung p ist. (b) Der quadratische Kern (c) Der sinc-Kern K ist eigentlich prädestiniert, als Kern beliebiger Ord- nung (sogenannter Superkern) zu dienen, da Momente durch Ablei- tungen bei Null im Fourierbereich berechnet werden und R konstant ist. Leider ist jedoch FK dort xp K(x)dx nicht wohldeniert als d ∞ g ∈ C (R ) eine Funktion mit komα paktem Träger und g(0) = 1, D g(0) = 0, |α| > 1 (ein Beispiel ist 2 2 g(x) = exp(2(1 − (x R+ 1)/(x − 1)2 ))1[−1,1] (x)), so gilt für K = F −1 g die Kerneigenschaft K = FK(0) = 1 sowie für |β| > 1 Z Z xβ K(x) dx = K(x)Duβ eihu,xi i−|β| dx = i−|β| Duβ FK(0) = 0. Lebesgue-Integral. Ist jedoch u=0 Damit ist ein solches 2.12 R Bemerkung. K ein Superkern. Manchmal |x|m+1 |K(x)|dx < ∞ wird zusätzlich für einen Kern der Ordnung die m Bedingung gefordert. Dies garantiert eine endliche Schranke im folgenden Lemma. LemmaBiasHoelder 2.13 Lemma. Es gelte f ∈ Fd ∩ HU (α; R, L) für eine Umgebung U von x und K besitze die Ordnung hαi sowie einen kompakten Träger. Dann gilt für hinreichend kleines h > 0 Z α dhαi |(f ∗ Kh − f )(x)| 6 h L hαi! |w|α |K(w)| dw. Beweis. Wir benutzen B ⊆ U um x f (y) = f (x) + die Taylorentwicklung um X |β|<hαi f (β) (x) x für alle y in einer Kugel X (y − x)β (y − x)β + f (β) (τy ) β! β! |β|=hαi 9 τy = x+ρ(y −x), ρ ∈ [0, 1], und β! = βR1 ! · · · βd !. WeK erstreckt sich das Integral f (y)K R h (x − y)dy für hinreichend kleines h nur über B . Die Kerneigenschaft Kh = 1 sowie die Ordnung von K und damit von Kh ergeben somit Z (f (y) − f (x))Kh (x − y) dy |(f ∗ Kh − f )(x)| = d R X Z (y − x)β f (β) (x) 6 Kh (x − y) dy d β! R |β|<hαi X Z (y − x)β (β) f (τ ) + K (x − y) dy y h d β! |β|=hαi R X Z (y − x)β (f (β) (τy ) − f (β) (x)) = Kh (x − y) dy d β! |β|=hαi R X Z |(y − x)β | |Kh (x − y)| dy 6 L|y − x|α−hαi d β! R |β|=hαi Z X 1 6 Lhα |z|α |K(z)| dz . β! Rd mit einer Zwischenstelle gen des kompakten Trägers von |β|=hαi Die letzte Summe lässt sich exakt bestimmen über einen Potenzreihenan- P∞ P P β m dx = ex1 +···+xd = m=0 |β|=m x /β!. Da β x /β! folgt e P ∞ m m dx = andererseits e m=0 x d /m! gilt, ergibt ein Koezientenvergleich P m |β|=m 1/β! = d /m!. satz 1 . Aus 2.14 Bemerkung. Wie der Beweis zeigt, gilt das Resultat auch, falls keinen kompakten Träger besitzt, jedoch KorBiasKern U = Rd K betrachtet wird. 2.15 Korollar. Unter den Voraussetzungen des vorangegangenen Satzes ist der Bias des Kerndichteschätzers von der Ordnung O(hα ); genauer gilt: |Ef [fˆn,h (x) − f (x)]| 6 CLhα R mit C = dhαi |w|α |K(w)| dw/hαi! . Beweis. Dies folgt unmittelbar aus der Bias-Darstellung und dem vorange- gangenen Satz. Da wir die wahre Dichte in der Klasse Bandweite HD (α; L, R) f nicht kennen, aber voraussetzen, dass sie mit bekanntem liegt, können wir die h so wählen, dass das maximale Risiko über diese Klasse möglichst Minimax-Ansatz). klein wird (sogenannter 1 α, L, R > 0 Dank an Martin Wahl für diesen Trick! 10 SatzMinimaxKernP 2.16 Satz. Es seien α, L, R > 0, D ⊆ Rd oen und K ∈ L2 (Rd ) ein Kern der Ordnung hαi mitKorBiasKern kompaktem Träger. C = C(α, d, K) bezeichne die Konstante aus Korollar 2.15. Für jedes x ∈ D gilt bei hinreichend kleinem h > 0 sup f ∈Fd ∩HD (α;L,R) Rx (fˆn,h , f ) 6 h2α C 2 L2 + n−1 h−d RkKk2L2 . Die rechte Seite wird minimal bei der Wahl 1/(2α+d) , h? = n−1 (2α)−1 RdkKk2L2 C −2 L−2 und es folgt sup f ∈Fd ∩HD (α;L,R) 2α/(2α+d) d/(2α+d) Rx (fˆn,h? , f ) 6 n−1 RkKk2L2 2αC 2 L2 d−1 . Insbesondere gilt für den maximalen Fehler Rx (fˆn,h? , f ) = O(R2α/(2α+d) L2d/(2α+d) n−2α/(2α+d) ). sup f ∈Fd ∩HD (α;L,R) Beweis. Einsetzen und Nachrechnen. 2.17 Beispiel. f und d = 1 ist das quadratische O(n−2/3 ), für f ∈ C 2 (R) erhalten wir O(n−4/5 ). Im −1 ) ergeben, also die gewöhnliche quadrierte Grenzfall α → ∞ kann sich O(n parametrische Konvergenzrate. Dabei ist zu beachten, dass die Schranke L natürlich von α abhängt und nicht notwendigerweise beschränkt bleibt. Je gröÿer die Dimension d ist, desto schlechter ist die Konvergenzrate (Fluch der Dimension, vergleiche auch Tabelle 4.2 in Silverman (1986)). Am exakten Ergebnis kann man auch erkennen, dass der Kern K möglichst um 2 die Null herum konzentriert sein sollte mit kleiner L -Norm (unter der ReR striktion durch K = 1 und die Ordnung hαi). Für Lipschitz-stetiges Risiko von der Ordnung Wenden wir uns dem MISE zu, so lassen sich alle Resultate übertragen durch Integration über das betrachtete Gebiet für D = Rd und f, K ∈ L2 (Rd ) D. Allerdings lassen sich bessere und transparentere Abschätzun- gen durch Übergang in den Spektralbereich gewinnen. Hauptwerkzeug ist Plancherel-Gleichung dabei die (vgl. Werner (2007), jedoch mit anderer 2π - Normierung) Z 2 d Z |g(x)|2 dx |Fg(u)| du = (2π) d für beliebiges g ∈ L2 (Rd ). d R R Wendet man diese auf die Spektraldarstellung des Kerndichteschätzers an BspKern (vergleiche Beispiel 2.4), so ergibt sich mit der charakteristischen Funktion ϕ(u) = Ff (u) Z Z (fˆn,h (x) − f (x))2 dx = (2π)−d |FK(hu)ϕ̂n (u) − ϕ(u)|2 du Rd Rd 11 (2.2) EqFRisk Aus I Übung Ef [ϕ̂n (u)] = ϕ(u) und Ef [|ϕ̂n (u) − ϕ(u)|2 ] = n−1 (1 − |ϕ(u)|2 ) erhalten wir die Bias-Varianz-Zerlegung im Spektralbereich 2 −1 2 −d 2 ˆ kFK(h•)kL2 −kFK(h•)ϕkL2 . MISERd (fn,h , f ) = (2π) k(FK(h•)−1)ϕkL2 +n R Wegen h→0 K = 1 gilt FK(0) = 1, und wir sehen, dass der Bias-Term für gegen Null konvergiert (sofern die Vertauschung von Grenzwert und Integral zulässig ist). Der Varianzterm ist kleiner als n−1 kFK(h•)k2L2 = O(n−1 h−d ). Wir n−1 h−d kFKk2L2 und damit wiederum von der Ordnung fassen zusammen. LemmaMISEKern 2.18 Lemma. Für den MISE des Kerndichteschätzers mit f, K ∈ L2 gilt MISERd (fˆn,h , f ) = (2π)−d k(FK(h•)−1)Ff k2L2 +n−1 h−d kFKk2L2 −n−1 kFK(h•)Ff k2L2 . 2.19 Bemerkung. Diese Abschätzung kann auch vollständig im Ortsbereich hergeleitet und formuliert werden: MISERd (fˆn,h , f ) = kKh ∗ f − f k2L2 + n−1 h−d kKk2L2 − n−1 kKh ∗ f k2L2 . Beachte auch hier, dass der letzte Term O(n−1 ) für n→∞ und h→0 ist und damit eine kleinere Gröÿenordnung als der zweite Term besitzt. Während wir den Approximationsfehler zuvor mittels Taylorentwick- |ϕ(u)| FK(hu) weit von 1 abweicht. Da FK stetig ist mit limu→±∞ FK(u) = 0 für K ∈ L1 (R) (Riemann-Lebesgue-Lemma), sollte |ϕ(u)| für u → ±∞ hinreichend schnell abfallen. lung abgeschätzt haben, sehen wir nun, dass dieser klein ist, wenn dort klein ist, wo 2.20 Denition. L2 -Sobolevraum der Ordnung s > 0 ist deniert Z n o s d 2 d H (R ) := g ∈ L (R ) (1 + |u|2 )s |Fg(u)|2 du < ∞ . Der als Rd Dies ist ein Hilbertraum bezüglich dem Skalarprodukt Z hg, his := Für s∈N kann die Sobolevnorm auch mit Hilfe schwacher Ableitungen direkt deniert werden: es gilt renzierbar ist sowie sondere liegt eine g (s) ∈ (1 + |u|2 )s Fg(u)Fh(u) du. Rd L2 (R) in 2.21 Beispiel. f f ∈ H s (Rd ), wenn f s-mal schwach die- und alle Ableitungen quadrat-integrierbar sind. Insbe- s-fach klassisch dierenzierbare Funktion g ∈ L2 (R) mit H s (R). f (x) = 21 e−|x| besitzt die Fouriertrans2 −1 , so dass f in H s (R) liegt für alle s < 3/2. formierte Ff (u) = (1 + u ) 1 −|x| 0 0 2 Wegen f (x) = − sgn(x) e im schwachen Sinn und f ∈ L (R) sieht man 2 1 direkt zumindest, dass f ∈ H (R) gilt, obgleich f ∈ / C 1 (R). Die Laplace-Dichte 12 Folgendes Resultat ist klassisch, siehe z.B. Werner (2007). 2.22 Satz . Für s > α + d/2 gilt H s (Rd ) ,→ C α (Rd ): jedes f ∈ H s (Rd ) besitzt eine Version in C α (Rd ). (Soboleveinbettungssatz) Für Sobolevklassen ist der Biasterm im MISE des Kerndichteschätzers leicht abzuschätzen. 2.23 Satz. Es sei K ∈ L1 ∩ L2 (Rd ) ein Kern der Ordnung hsi mit FK ∈ und beschränkten Ableitungen der Ordnung hsi+1. Für den MISE des Kerndichteschätzers mit f ∈ H s (Rd ) für s > 0 gilt C hsi+1 (Rd ) MISERd (fˆn,h , f ) 6 C 2 kf k2s h2s + n−1 h−d kKk2L2 kF K (β) k∞ s/(hsi+1) . β!(kKkL1 +1) ) kF K (s) k∞ ergibt sich C = s!√2π . P mit C = (2π)−d/2 (kKkL1 + 1)( |β|=hsi+1 negative Kerne sowie d = 1 und s ∈ N 2.24 Bemerkung. Nach der Fouriertheorie folgt Für nicht- FK ∈ C hsi+1 (Rd ) mit gleichmäÿig beschränkten Ableitungen aus der Momentenbedingung |K(x)||x|hsi+1 dx < ∞, insbesondere also für Kerne mit kompaktem Träger. I Übung Ein einfacherer Beweis ist möglich für Kerne mit kompaktem Träger R im Fourierbereich, zum Beispiel für den sinc-Kern. Beweis. Die Ordnung von K impliziert im Fourierbereich FK (β) (0) = 0 für |β| ∈ {1, . . . , hsi}. Mittels Taylorentwicklung von FK um Null erhalten wir daher k(FK(h•) − 1)Ff k2L2 Z = |FK(hu) − 1|2 (1 + |u|2 )−s (1 + |u|2 )s |Ff (u)|2 du 6 kf k2s sup |FK(hu) − 1|2 (1 + |u|2 )−s u∈Rd 6 kf k2s sup X |hu|hsi+1 u∈Rd |β|=hsi+1 = kf k2s h2s sup |v|hsi+1−s v∈Rd = kf k2s h2s (kKkL1 + 1)2 2 kFK (β) k∞ ∧ (kKkL1 + 1) |u|−2s β! X |β|=hsi+1 X |β|=hsi+1 2 kFK (β) k∞ ∧ (kKkL1 + 1)|v|−s β! kFK (β) k∞ 2s/(hsi+1) . β!(kKkL1 + 1) LemmaMISEKern Wir schlieÿen mittels Lemma 2.18, wobei wir den letzten Summanden dort durch Null abschätzen. Die Vereinfachung folgt aus gative Kerne K durch Einsetzen. 13 kKkL1 = 1 für nichtne- Minimieren des MISE bezüglich h ergibt die Konvergenzrate O(n−2s/(2s+d) ). KorMinimaxKernL2 2.25 Korollar. Unter den Voraussetzungen und in der Notation des vorigen Satzes gilt für M > 0 und mit h? = (n−1 (2s)−1 dkKk2L2 C −2 M −2 )1/(2s+d) sup f ∈Fd ∩H s (Rd ), kf ks 6M 2s/(2s+d) d/(2s+d) MISERd (fˆn,h? , f ) 6 n−1 kKk2L2 2sC 2 M 2 d−1 . Insbesondere ist für Sobolevbälle der Ordnung s > 0 mit Radius M der maximale MISE von der Ordnung O(M 2d/(2s+d) n−2s/(2s+d) ) in n und M . 2.5 Gleichmäÿige Fehlerschranke Um den Fehler bezüglich gleichmäÿigem Risiko abzuschätzen, benötigen wir exponentielle Ungleichungen für die Wahrscheinlichkeit groÿer Abweichungen des Schätzers von seinem Erwartungswert. Dazu dient die in der gesamten Stochastik wichtige Bernstein-Ungleichung. 2.26 Satz . Es seien (Yi )i>1Punabhängige, identisch verteilte Zufallsvariablen mit E[Yi ] = 0 und Sn := ni=1 Yi . Falls |Yi | 6 R fast sicher gilt, so folgt (Bernstein-Ungleichung (1923)) eλR − 1 − λR P(|Sn | > κ) 6 2 exp − sup λκ − Var(Sn ) , R2 λ>0 κ > 0. Insbesondere gilt P(|Sn | > κ) 6 2 exp − Beweis. κ2 , 4(Var(Sn ) + κR) κ > 0. Wir verwenden die verallgemeinerte Markovungleichung P(Sn > κ) = P(exp(λSn ) > exp(λκ)) 6 e−λκ E[eλSn ], und erhalten aus (Yi ) i.i.d. mit dem Satz von Fubini P(Sn > κ) 6 e −λκ n Y E[e λYi ]=e i=1 Wir benutzen nun für k > 2, so dass λ > 0, −λκ ∞ X λk E[Y k ] n 1 k=0 k! . E[Yi ] = 0 sowie |E[Yik ]| 6 E[Yi2 ]Rk−2 = Rk−2 Var(Sn )/n n An wegen (1 + A) 6 e ∞ 1 X λk Rk−2 Var(Sn ) n P(Sn > κ) 6 e−λκ 1 + n k! k=2 6 exp − λκ + Var(Sn )R−2 (eλR − 1 − λR) 14 −Sn gibt die λ := κ/(2 Var(Sn ) + 2κR), eλR − 1 − λR 6 λ2 R2 . Folglich gilt gilt. Dies zusammen mit einer symmetrischen Abschätzung für erste Ungleichung, die zweite folgt mit der Wahl weil dann λR 6 1/2 und somit −λκ+Var(Sn )R−2 (eλR −1−λR) 6 − κ2 κ2 Var(Sn ) + , 2(Var(Sn ) + κR) 4(Var(Sn ) + κR)2 und eine triviale Abschätzung des zweiten Zählers durch κ2 (Var(Sn ) + κR) liefert die Behauptung. 2.27 Beispiel. P Tn = n i=1 (Yi scheinlichkeit I Übung − E[Yi ]) Im Fall der Binomialverteilung erhalten wir für und eine Bernoullikette (Yi )i>1 mit Erfolgswahr- p: |Yi − E[Yi ]| 6 max(p, 1 − p), Var(Tn ) = np(1 − p). P(|Tn | > κ) 6 2 exp(−κ2 /(4(np(1− i=1 Yi ∼ Bin(n, p) folgt durch Skalierung Also impliziert die Bernsteinungleichung p) + κ max(p, 1 − p)))). Für Sn = Pn p P |Sn −np| > κ np(1 − p) 6 2 exp − Dies bedeutet, dass für groÿe teilung fast wie 2 /4 e−κ n die κ2 . 4 + 4 max(p, 1 − p)κ(np(1 − p))−1/2 tails der standardisierten Binomialver- abfallen. Verwendet man die erste Version der Bern- steinungleichung, so erhält man ein optimales Null konvergiert, so dass man sogar fast λ > 0, 2 /2 e−κ das für n→∞ gegen als Abfallverhalten erhält. 2.28 Satz. Betrachte den Kernschätzer für beschränkte und Lipschitz-stetige Kerne K auf einem beschränkten und oenen Gebiet D ⊆ Rd . Für α, L, R > 0 und Kernordnung hαi gilt folgende gleichmäÿige Konvergenzrate für n → n ∞ und h → 0 mit log →0 nhd √ log n α ˆ sup RD,∞ (fn,h , f ) = O h + √ . nhd f ∈Fd ∩HD (α;L,R) Die ratenoptimale Wahl der Bandweite h∗n = (n/ log n)−1/(2α+d) führt auf sup f ∈Fd ∩HD (α;L,R) Beweis. RD,∞ (fˆn,h∗n , f ) = O log n α/(2α+d) n Mit dem zentrierten stochastischen Fehler Gn,h (x) = fˆn,h (x) − E[fˆn,h (x)] erhalten wir die Zerlegung fˆn,h (x) − f (x) = Gn,h (x) + (f ∗ Kh − f )(x). 15 . KorBiasKern Mit Korollar 2.15 ist der zweite Term durch CLhα beschränkt, und die Be- hauptung folgt aus der Dreiecksungleichung, sobald p O( log n/(nhd )) Ef [supx∈D |Gn (x)|] = gezeigt ist. Dazu diskretisieren wir D mittels einer endlichen Menge Dn ⊆ D , so x ∈ D maximalen Abstand δn zu Dn besitzt. Im folgenden Ci , i > 1, positive reelle Zahlen, die unabhängig von n und h −d gilt sind. In Dimension d kann Dn so gewählt werden, dass |Dn | 6 C1 δn (betrachte einen Würfel, der D umfasst). Einerseits erhalten wir mit der Lipschitz-Konstanten LK des Kerns K , dass Kh die Lipschitz-Konstante LK h−d−1 besitzt und somit dass jeder Punkt bezeichne sup |Gn (x)| − sup |Gn (x)| 6 x∈D x∈Dn |Gn (y) − Gn (x)| |Kh (y − Xi ) − E[Kh (y − Xi )] − (Kh (x − Xi ) − E[Kh (x − Xi )])| sup 6 sup x,y∈D;|x−y|6δn |x−y|6δn ;i 6 2LK h−d−1 δn . Andererseits folgt mittels Bernstein-Ungleichung und der Varianzabschät- SatzMinimaxKernP zung aus Satz 2.16 P sup |Gn (x)| > κR 1/2 q log n/(nhd ) x∈Dn 6 X n q X 1/2 1 d) P (K (x − X ) − E[K (x − X )]) > κR log n/(nh i i h h n i=1 x∈Dn κ2 R log n p 4(R + κR1/2 log n/(nhd )2kKk∞ ) x∈Dn κ2 log n p 6 2C1 δn−d exp − . 4 + 8κR−1/2 log n/(nhd )kKk∞ 6 X 2 exp − R∞ I Übung Ungleichung E[Y ] 6 a + a P(Y > κ)dκ, a > 0, mit Y = supx∈Dn |Gn (x)|(R log n)−1/2 (nhd )1/2 und erhalten wegen log n/(nhd ) → 0 mit C2 = C2 (a) > 0 geeignet h i 2 E sup |Gn (x)| 6 (R log n)1/2 (nhd )−1/2 (a + C2 δn−d n−a /4 ). Wir verwenden die x∈Dn Insgesamt haben wir gezeigt: h i 2 E sup |Gn (x)| 6 C3 (h−2d δn + (log n)1/2 (nhd )−1/2 (a + δn−d n−a /4 )). x∈D h−d−1 6 C4 n2 und setzt δn = n−5/2 (ergibt parametri2 ersten Term) sowie a = 10d, so folgt die Behauptung durch Verwendet man nun sche Rate für Einsetzen. 16 3 Nichtparametrische Regression 3.1 Modell und Signal in weiÿem Rauschen Regressionsmodelle sind die am häugsten in Anwendungen vorkommenden statistischen Modellierungen. Man unterscheidet zwischen Modellen mit deterministischem und mit zufälligem Versuchsplan oder Design. Wir betrachten Standardformulierungen für diese Modelle, es existieren vielfältige Verallgemeinerungen und Modikationen. DefRegr 3.1 Denition. d Xi ∈ D ⊆ R , Yi ∈ R. Mit Regressionsfunktion bezeichnet (die existieren möge), so dass äqui- achtungen mit werde die (Xi , Yi )i=1,...,n von i.i.d. Beobf (x) := E[Yi | Xi = x], x ∈ D, Gegeben sei eine Stichprobe valent folgendes Modell beobachtet wird: (Xi , Yi ) mit Yi = f (Xi ) + εi , i = 1, . . . , n, mit (εi )i=1,...,n i.i.d. und E[εi | Xi ] = 0. Dies ist das Regressionsmodell mit zufälligem Versuchsplan (Design) und Ziel ist statistische Inferenz für die Regressionsfunktion f . Die Yi werden als Antwortvariablen (response variables), die Xi als Regressor-, Prädiktor- oder Kovariablen (regressor/predictor variables, covariates) und die εi als Fehlervariablen (error variables) bezeichnet. Sind x1 , . . . , xn ∈ D ⊆ Rd deterministisch, so wird das analoge Beobach- tungsmodell Yi = f (xi ) + εi , i = 1, . . . , n, (εi )i=1,...,n i.i.d. und E[εi ] = 0 als Regressionsmodell mit deterministischem Versuchsplan (Design) bezeichnet. Die weiteren Bezeichnungen stimmen überein. Ist die Regressionsfunktion f nicht endlich-dimensional parametrisiert, so spricht man von nichtparametrischer Regression. mit Das prototypische Regressionsmodell ist gegeben durch äquidistante Beobachtungen auf dem Einheitsintervall und normalverteilte Fehler Yi = f (i/n) + εi , i = 1, . . . , n, εi ∼ N (0, σ 2 ) i.i.d. (3.1) Ein kontinuierliches Analogon dazu ist gegeben durch das Modell eines gnals in weiÿem Rauschen: σ dYt = f (t) + √ dWt , n mit einer Standard-Brownschen Bewegung tung von W t ∈ [0, 1], W Si- (3.2) (die verallgemeinerte Ablei- wird auch weiÿes Rauschen genannt). Das heiÿt, in diesem Mo- dell beobachtet man insbesondere die Inkremente 17 Yb − Ya = Rb a EqModellRegression f (t)dt + EqModellWeissesRausch √σ (Wb − Wa ) für n 0 6 a < b 6 1. Man beobachtet also auch den Dierenzen- quotienten Yi/n − Y(i−1)/n Ȳi := =n 1/n Z i/n f (t) dt + ε̄i (i−1)/n √ ε̄i = σ n(Wi/n − W(i−1)/n ) ∼ N (0, σ 2 ), i = 1, . . . , n i.i.d. Signal f nun eine gewisse Hölderregularität α > 0, so gilt Z i/n ¯ f (t) dt = f (i/n) + O(n−α ). f (i/n) := n mit Besitzt das (i−1)/n Insbesondere können wir also aus dem Signal in weiÿem Rauschen das Regressionsmodell approximativ zurückgewinnen: Ȳi = f¯(i/n) + εi , i = 1, . . . , n, εi ∼ N (0, σ 2 ) i.i.d. Diese Äquivalenz im statistischen Sinn ist von Le Cam mathematisch exakt formuliert worden, und Brown and Low (1996) haben in der Tat bewiesen, dass für Funktionenklassen F ⊆ HD (α; R, L) mit α > 1/2 die statistischen EqModellRegression EqModellWeissesRauschen Experimente generiert durch (3.1) und (3.2) asymptotisch äquivalent sind. Das Modell des Signals in weiÿem Rauschen lässt im Allgemeinen sehr viel transparentere Konstruktionen und Beweise zu, wie wir im folgenden noch sehen werden. 3.2 Lokal-polynomiale Schätzer Da wir schon einige Möglichkeiten zur Dichteschätzung kennengelernt haben, schauen wir zunächst, wie sich diese Ideen auf die Schätzung der Regressionsfunktion übertragen lassen. Beachte dazu, dass wir mit der bedingten Dichte fY |X=x von Yi gegeben Xi = x und der gemeinsamen Dichte fX,Y folgende Darstellung erhalten: Z f (x) = E[Yi | Xi = x] = Z yfY |X=x (y) dy = R yR R fX,Y (x, y) dy. fX,Y (x, η)dη Benutzen wir nun einen Kernschätzer zur Schätzung von fX,Y der Form n 1X x fˆX,Y (x, y) = Khx (x − Xi )Khyy (y − Yi ) n i=1 x y mit Kernen K , K und Bandweiten hx , hy > 0, so ergibt Einsetzen (plug- in-Ansatz) y 1 Pn x i=1 Khx (x − Xi ) yKhy (y − Yi )dy n R P y n 1 x i=1 Khx (x − Xi ) Khy (η − Yi )dη n R Pn y x i=1 Khx (x − Xi ) yKhy (y − Yi )dy Pn . x i=1 Khx (x − Xi ) R fˆn,hx ,hy (x) = = 18 Da wir ein Integral bezüglich bezüglich y y schätzen wollen, zeigt es sich, dass Glätten nicht notwendig ist und der Grenzwert für ist: hy → 0 wohldeniert Pn Yi Khxx (x − Xi ) lim fˆn,hx ,hy (x) = Pi=1 . n x hy →0 i=1 Khx (x − Xi ) Dieser Schätzer ist auch intuitiv. Betrachte beispielsweise den Rechteckkern (d = 1). Dann wird deren Kovariablen f (x) Xi geschätzt durch ein lokales Mittel derjenigen hx /2 Abstand maximal zu x Yi , besitzen. Bei allgemeine- ren Kernen handelt es sich um ein gewichtetes Mittel. Dies ergibt auch im Fall eines deterministischen Designs einen sinnvollen und sehr gebräuchlichen Kernschätzer. 3.2 Denition. Es seien K ein Kern im Rd und h > 0 eine Bandweite. Im Regressionsmodell mit deterministischem oder zufälligem Design zeichnet dann Pn Yi Kh (x − xi ) NW ˆ fn,h (x) := Pi=1 n i=1 Kh (x − xi ) Nadaraya-Watson-Schätzer P der Regressionsfunktion f . x ∈ D mit ni=1 Kh (x − xi ) 6= 0. den (xi ) be- Dieser ist wohl- deniert für alle Im Modell des Signals im weiÿen Rauschen deniert man analog (wegen R Kh (x − t)dt = 1 ist der Nenner gleich Eins): NW (x) := fˆn,h 1 Z Kh (x − t) dYt . 0 Eine Verallgemeinerung dieser Konstruktion ergibt sich Im Fall nichtnegativer Kernfunktionen, wenn man den Nadaraya-Watson-Schätzer über I ein Minimierungsprinzip charakterisiert NW fˆn,h (x) = argminy∈R n X Übung : (Yi − y)2 Kh (x − xi ) . i=1 Wenn man die Kh (x − xi ) als lokale Gewichte ansieht, ist der Nadaraya- Watson-Schätzer also die beste lokale Approximation mit der Konstanten an die Daten. Oft wird es sich als nützlich erweisen, f y lokal durch ein Polynom zu approximieren, weil dies einen besseren t bei glatten Funktionen f erlaubt. Der Übersichtlichkeit halber betrachten wir im folgenden nur den skalaren Fall d = 1. 3.3 Denition. Für m ∈ N0 Es seien K :R→R ein Kern und setze 2 P (z) := 1, z, z , . . . , z 19 m > h>0 eine Bandweite. sowie im Regressionsmodell mit deterministischem oder zufälligem Design (xi ) n X ϑ̂n,h (x) := argminϑ∈Rm+1 2 Yi − hϑ, P (xi − x)i Kh (x − xi ) ∈ Rm+1 . i=1 Dann heiÿt LP m fˆn,h (x) := hϑ̂n,h (x), P (0)i = (ϑ̂n,h (x))1 lokal-polynomialer Schätzer m. Im Fall m = 0 m = 1 spricht man von vom Grad Nadaraya-Watson-Schätzer, im Fall ist dies der einem linearen Schätzer. 3.4 Denition. len Grad m lokal- Wir führen die Menge aller reellen Polynome vom maxima- ein: Polm := n R 3 x 7→ m X o ak xk ak ∈ R . k=0 Beachte, dass LP m (x) fˆn,h alternativ auch als P̂ (x) deniert werden kann mit dem Polynom P̂ = argminPm ∈Polm n X Yi − hϑ, Pm (xi )i 2 Kh (x − xi ). i=1 3.5 Lemma. Es gilt LP m (x) = fˆn,h n X Yi wi (x) i=1 mit lokalen Gewichten wi (x) := n−1 B(x)−1 P (xi − x) 1 Kh (x − xi ), sofern die (m + 1) × (m + 1)-Matrix n B(x) := 1X P (xi − x)P (xi − x)> Kh (x − xi ) n i=1 invertierbar ist. 3.6 Bemerkung. Bei einem nicht-negativen Kern K ist B(x) stets positiv- semidenit wegen n 1X > (v P (xi −x))2 Kh (x−xi ) > 0 ∀v ∈ Rm+1 . hB(x)v, vi = v B(x) v = n > > i=1 In diesem Fall ist B(x) invertierbar genau dann, wenn denit ist, was häug gefordert wird. 20 B(x) strikt positiv Beweis. Wir können ϑ̂n,h als Minimierer der quadratischen Form n 2X F (ϑ) := − Yi hϑ, P (xi − x)iKh (x − xi ) + hB(x)ϑ, ϑi n i=1 schreiben. Als notwendige Bedingung erhalten wir die Normalengleichungen n 0 = ∇F (ϑ̂n,h ) = − 2X Yi P (xi − x)Kh (x − xi ) + 2B(x)ϑ̂n,h . n i=1 Falls B(x) invertierbar ist, so folgt eindeutig ϑ̂n,h = n−1 n X Yi B(x)−1 P (xi − x)Kh (x − xi ) i=1 und damit die Behauptung. 3.7 Beispiel. Betrachte den lokal-linearen Schätzer mit Rechteckkern Ih := {i : |xi − x| 6 h/2}. Dann gilt P P 1 X 1 1 (x − x) i > i∈I i∈I h P P h B(x) = P (xi −x)P (xi −x) = 2 . nh nh i∈Ih (xi − x) i∈Ih (xi − x) K(x) = 1([−1/2, 1/2])(x). Setze i∈Ih strikter Ungleichung, wenn der Vektor ist. Daher ist P 2 2 i Ai P P i 1 mit (Ai ) nicht kollinear mit dem 1-Vektor Aus der Cauchy-Schwarz-Ungleichung folgt ( i Ai ) 6 det(B(x)) strikt positiv, sobald es mindestens zwei verschiedene xi , xj in einer h/2-Umgebung von x gibt. Wir setzen X 2 X X 1− (xj − x) d(x) := (xj − x)2 Designpunkte j∈Ih j∈Ih j∈Ih und erhalten −1 B(x) Als Gewichte nh = d(x) wi (x) P P (xj − x)2 − j∈Ih (xj − x) j∈I h P P . − j∈Ih (xj − x) j∈Ih 1 ergeben sich somit wi (x) = d(x)−1 X j∈Ih X (xj − x)2 − (xj − x)(xi − x) 1(i ∈ Ih ). j∈Ih P −1 führt zur Normalisierung d(x) i wi (x) = 1. Es gilt ferner P i xi wi (x) = x wegen P P P P n 2 2 X j (xj − x) i (xi − x) − j (xj − x) i (xi − x) (xi − x)wi (x) = d(x) Der Faktor i=1 = 0. 21 Dies bedeutet, dass bei exakt linearen Daten LP 1 (x) = ax + b fˆn,h Yi = axi +b, i ∈ Ih , der Schätzer erfüllt, was auch der Intention der Denition eines lokal xi = i/n x = k/n, k = 1, . . . , n −P 1, h < min(x, 1 − x)/2 fällt der lineare Term aus Symmetriegründen weg: j∈I (xj − x) = 0. Es ergibt sich −1 wi (x) = (#Ih ) 1(i ∈ Ih ) und damit der entsprechende Nadaraya-Watson- linearen Schätzers entspricht. Im Falle eines äquidistanten Designs auf [0, 1] und für Schätzer. Der lokal-lineare Schätzer hat Vorzüge gegenüber dem NadarayaWatson-Schätzer, wenn das Design unregelmäÿig ist oder aber am Rand des Intervalls D geschätzt werden soll. Beachte dazu auch die Fehleranalyse im nächsten Abschnitt. 3.8 Lemma. Die Gewichte wi (x) eines lokal-polynomialen Schätzers vom Grad m erfüllen für alle Polynome p ∈ Polm n X p(xi )wi (x) = p(x), i=1 sofern die Matrix B(x) invertierbar ist. Insbesondere folgt n X wi (x) = 1, i=1 n X (x − xi )k wi (x) = 0, k = 1, . . . , m. i=1 P Beweis. Wir schreiben p(xi ) = m k=0 ρ = (p(k) (x)/k!)k=0,...,m . Damit gilt n X p(k) (x) k! (xi − x)k = hρ, P (xi − x)i mit n p(xi )wi (x) = i=1 1X hρ, P (xi − x)ihB(x)−1 P (xi − x), P (0)iKh (x − xi ) n i=1 > = ρ B(x)B(x)−1 P (0) = ρ1 . Mit ρ1 = p(x) folgt die Behauptung. Die Folgerung ergibt sich durch Be- trachten des Polynoms p(y) = (x − y)k für festes x. 3.3 Fehleranalyse 3.9 Denition. Im Regressionsmodell heiÿt jeder Schätzer der Form fˆn (x) = n X Yi wi (x) i=1 mit Gewichten Schätzer. Gilt n X i=1 so besitzt fˆn wi ∈ R, die nur von x und vom Design (xi ) abhängen, linearer d = 1 und wi (x) = 1, n X (x − xi )k wi (x) = 0, k = 1, . . . , m, i=1 die Eigenschaft der polynomialen Reproduktion der Ordnung m. 22 Im Modell des Signals im weiÿen Rauschen ist der Nadaraya-Watson- N W (x) := fˆn,h R1 Kh (x − t) dYt ein linearer Schätzer und besitzt die R k polynomiale Reproduktionsordnung m (im Sinne von (x−t) Kh (x−t)dt = 0LemmaBiasHoelder , k = 1, . . . , m) des Kerns K . Mittels Bias-Varianz-Zerlegung und Lemma 2.13 erhalten wir für f ∈ HD (α; ∞, L) und m > hαi direkt Schätzer 0 NW Ef [(fˆn,h (x) − f (x))2 ] Z 1 2 i 2 h Z 1 Kh (x − t) √σn dWt Kh (x − t)f (t)dt − f (x) + Ef = 0 0 2 Z 1 σ Kh (x − t)2 dt = (Kh ∗ f − f )(x)2 + n 0 Z 2 α L 6 h hαi! |w|α |K(w)| dw + σ 2 n−1 h−1 kKk2L2 . Wir haben also dasselbe Bias-Varianz-Dilemma wie bei der Dichteschätzung, sogar die Gröÿenordnung der Terme ist identisch. Insbesondere wird bei geeigneter Wahl der Bandweite h die Konvergenzrate ebenfalls O(n−α/(2α+1) ) betragen. Im allgemeinen Regressionsmodell müssen wir zur Fehlerabschätzung mehr arbeiten, aber unter Bedingungen an die Gewichte werden wir ähnliche Resultate erzielen. LemmaRegrBiasVar 3.10 Lemma. Betrachte für d = 1 einen linearen Schätzer fˆn mit polynomialer Reproduktion der Ordnung m im Regressionsmodell mit deterministischem Design (xi ). Es gelte σ 2 := E[ε2i ] < ∞. Dann erhalten wir für Bias und Varianz: n X |Ef [fˆn (x) − f (x)]| 6 inf wi (x)(f (xi ) − f (x) − pm (xi − x)), pm ∈Polm , pm (0)=0 Varf (fˆn ) = σ 2 n X i=1 wi (x)2 . i=1 3.11 Bemerkung. Bei zufälligem Design (Xi ) folgen die Aussagen bedingt {Xi = xi , i = 1, . . . , n}, also zum Beispiel n X ˆ |Ef fn (x)−f (x) (Xi ) = (xi ) | 6 inf wi (x)(f (xi ) − f (x) − pm (xi − x)), auf das Ereignis pm wobei wi (x) i=1 das Gewicht bei der Realisierung (Xi ) = (xi ) bezeichnet. Im folgenden werden wir nur deterministisches Design betrachten. Resultate für zufälliges Design ergeben sich durch Mittelung über die teilung von Beweis. (xi ) gemäÿ der Ver- (Xi ). Es sei Reproduktion pm ∈ Polm mit pm (0) = 0. Dann folgt P i pm (xi − x)wi (x) = 0 und somit Ef [fˆn (x)] − f (x) = aus der polynomialen n n X X (f (xi ) − f (x))wi (x) − pm (xi − x)wi (x). i=1 i=1 23 Dies impliziert die Abschätzung für den Betrag. Aus der i.i.d.-Verteilung der (εi ) folgt Varf (fˆn (x)) = n X 2 Varf (Yi )wi (x) = i=1 n X 2 Var(εi )wi (x) = σ 2 i=1 n X wi (x)2 . i=1 Wir betrachten wiederum Hölderklassen, um die Regularität der Regressionsfunktion f zu beschreiben. Im Gegensatz zum Dichteschätzproblem müssen wir weder fordern, dass f eine Dichte ist, noch, dass f gleichmäÿig beschränkt ist. Wir betrachten nur den eindimensionalen Fall. 3.12 Denition. Als Hölderklasse mit Parametern α, L > 0 auf I ⊆ R oen bezeichnen wir die Menge n α HI (α; L) := f ∈ C (I) SatzLinRegrSchranke sup x,y∈I, x6=y o |f (hαi) (x) − f (hαi) (y)| 6 L . |x − y|α−hαi 3.13 Satz. Es sei fˆn,h (x) ein linearer Schätzer im Regressionsmodell mit d = 1 und mit deterministischem Design (xi ). Die Gewichte wi,n,h (x) mögen für h > 0 und mit Konstanten C1 , C2 > 0 folgende Eigenschaften erfüllen: Pn (a) i=1 |wi,n,h (x)| 6 C1 ; Pn 2 2 −1 −1 (b) i=1 wi,n,h (x) 6 C2 n h ; (c) wi,n,h (x) = 0 für alle i mit |xi − x| > h. Weiterhin sei σ 2 := E[ε2i ] endlich sowie x ∈ R, U (x) eine oene Umgebung von x und α, L > 0. Reproduziert fˆn,h (x) Polynome der Ordnung m := hαi, so gilt für hinreichend kleines h > 0 die obere Schranke C 2σ2 Ef [(fˆn,h (x) − f (x))2 ] 6 (C1 /m!)2 L2 h2α + 2 . nh f ∈HU (x) (α,L) sup Wählt man hn = n−1/(2α+1) , so ergibt sich die Rate sup Ef [(fˆn,hn (x) − f (x))2 ] = O(n−2α/(2α+1) ). f ∈HU (x) (α,L) 3.14 Bemerkung. Ein entsprechendes Resultat gilt auch für d > 2 mit Rate n−2α/(2α+d) , sofern in Eigenschaft (b) statt h−1 (was natürlich ist). 24 der Term h−d gefordert wird Beweis. Nach dem vorangegangenen Lemma und Eigenschaft (b) gilt für die Varianz Varf (fˆn,h (x)) = σ 2 n X wi,n,h (x)2 6 i=1 C22 σ 2 . nh Eine Taylorentwicklung zeigt mittels vorangegangenem Lemma und hαi für den Biasterm (mit τ ∈ [x , x] m = werde eine Zwischenstelle bezeichnet, i i LemmaBiasHoelder vergleich auch Lemma 2.13): n X |Ef [fˆn (x) − f (x)]| 6 inf wi,n,h (x)(f (xi ) − f (x) − pm (xi − x)) pm i=1 n X 6 wi,n,h (x)(f (m) (τi ) − f (m) (x))(xi − x)m /m! i=1 6 C1 Lhα /m!. Im letzten Schritt haben wir die Dreiecksungleichung, Eigenschaft (a) sowie die Abschätzungen |τi −x| 6 h und |xi −x| 6 h für diejenigen i mit wi (x) 6= 0 aus Eigenschaft (c) verwendet. Die Bias-Varianz-Zerlegung ergibt die behauptete Ungleichung und Einsetzen die angegebene Kovergenzrate. 3.15 Beispiel. Betrachte den Nadaraya-Watson-Schätzer negativem und stetigem Kern K. NW fˆn,h mit nicht- Dann gilt Kh (x − xi ) wi,n,h (x) = Pn > 0, j=1 Kh (x − xj ) sofern N W (x) fˆn,h wohldeniert ist. Wir erhalten n X |wi,n,h (x)| = i=1 n X wi,n,h (x) = 1 i=1 m = 0 und [−1, 1], so folgt und somit die polynomiale Reproduktion vom Grad (a) im vorigen Satz. Liegt der Träger von K in Eigenschaft Eigenschaft (c). Eigenschaft (b) wird impliziert, wenn Kh (x − xi ) 6 C22 /(nh) wi,n,h (x) = Pn K (x − x ) j j=1 h gilt (benutze 2 i wi P 6 maxi wi P h−1 kKk∞ . Damit der Nenner die wir ein reguläres Design, nämlich i wi ). Für den Zähler gilt Kh (x − xi ) 6 richtige Gröÿenordnung besitzt, fordern ∃C > 0 ∀x ∈ I, n > 1 : dist(x, {xi | i = 1, . . . n}) 6 C/n. 25 (3.3) EqRegDesign n abhängt, wir der Kürze halber aber xi R K > 0 und K = 1 folgt mit einem Stetigkeitsaroenes Intervall (A, B) und ε > 0 gibt mit K(x) > ε für Beachte dabei, dass das Design von (n) statt xi schreiben. Aus gument, dass es ein x ∈ (A, B). Wir schlieÿen n X X Kh (x − xj ) > j=1 h−1 ε > h−1 ε j: hA6x−xj 6hB 2 so dass wir C2 = 2CkKk∞ /(ε(B − A)) h(B − A) , 2C/n wählen können. Zusammenfassend erhalten wir die Aussage, dass die Risikoabschätzung im vorangegangenen Satz für den Nadaraya-Watson-Schätzer gilt, sofern der Kern und Träger in [−1, 1] K stetig ist EqRegDesign besitzt und das Design regulär ist im Sinne von (3.3). Da nur Konstanten reproduziert werden, gilt dies jedoch nur für Hölderregularität α 6 1. Wie wir gesehen haben, fällt der Nadaraya-Watson-Schätzer manchmal mit dem lokal linearen Schätzer zusammen (beim Rechteckkern und bei äquidistantem Design). In diesem Fall gilt das Resultat sogar für α 6 2. alle Beachte auch, dass nicht-negative Gewichte maximal lineare Po- lynome reproduzieren können, genauso wie nicht-negative Kerne maximal die Ordnung 1 besitzen. Man kann die Bedingungen im vorigen Satz asymptotisch auch für allgemeine lokal-polynomiale Schätzer und reguläres Design nachweisen. Darüberhinaus erhält man analog zum Dichteschätzproblem Abschätzungen des MISE für Sobolevklassen. All dies wird im Buch von Tsybakov (2004) umfassend dargestellt. Viele praktische Aspekte beim Einsatz lokaler Polynome werden von Fan and Gijbels (1996) und Hastie, Tibshirani, and Friedman (2001) diskutiert. 3.4 Projektionsschätzer Eine weitere wichtige Methode zum Schätzen der Regressionsfunktion f (und der Dichtefunktion, s.u.) ist es, diese durch eine Linearkombination f = PK k=1 ck ϕk von Funktionen (ϕk )k=1,...,K zu approximieren und die Ko(ck )k=1,...,K ⊆ RK (parametrisch) zu schätzen. Mit wachsender ezienten Anzahl n von Beobachtungen wird man auch K gröÿer wählen, so dass der Approximationsfehler asymptotisch klein wird. Die Auswahl der Funktionen- (ϕk ) liegt in der Hand des Statistikers und sollte möglichst so gewählt werden, dass die unbekannte Funktion f gut approximiert wird. Aktuell werfamilie den dazu häug sehr umfangreiche Familien betrachtet, jedoch mit der Forderung, dass nur wenige Koezienten (ϕk ) und sparse representations (ck )). (ck ) ungleich Null sind (dictionaries Besonders einfach in Durchführung und Analyse ist jedoch die Schätzung, wenn (ϕk )k=1,...,n system bezüglich dem empirischen Skalarprodukt n hϕ, ψin := 1X ϕ(xi )ψ(xi ) n i=1 26 ein Orthonormal- bilden, weil dann ein Kleinster-Quadrate-Schätzer bei orthogonalem Design verwendet werden kann (beachte, dass jede Basis mittels Gram-SchmidtVerfahren orthonormalisiert werden kann). 3.16 Denition. (ϕk )k=1,...,K , 1 6 K 6 n, L2 (D, k•kn ). Dann heiÿt Im Regressionsmodell sei Orthonormalsystem von Funktionen in fˆn,K (x) := K X n ĉk ϕk (x) mit 1X ĉk := Yi ϕk (xi ) n i=1 k=1 Orthogonalreihen- oder Projektionsschätzer 3.17 Bemerkung. ein von f. fˆn,K als Orthogonalprojektion PK von (Yi )i=1,...,n auf den von (ϕk (xi ))i=1,...,n , k = 1, . . . , K , aufgespannten K -dimensionalen Unterraum aufgefasst werden. Die Werte fˆn,K (x) für x 6= xi ergeben sich durch die Werte von ϕk dort. Basisunabhängig kann Im Modell des Signals in weiÿem Rauschen ist das Design gewissermaÿen [0, 1], so dass der Projektionsschätzer für (ϕk )k=1,...,K , K ∈ N, von L2 ([0, 1]) gegeben ist durch kontinuierlich und gleichmäÿig auf ein Orthogonalsystem fˆn,K (x) := K X Z ĉk ϕk (x), 1 ϕk (t) dYt . ĉk := 0 k=1 Folgenraummodell der empirischen Koezienten verfügen wir daher unter 2 der Annahme f ∈ L ([0, 1]) äquivalent über die Beobachtungen Im ĉk := ck + εk , k = 1, . . . , K, mit ck := hf, ϕk i, εk ∼ N (0, σ 2 /n) Die Abschätzung des MISE ist hier besonders einfach (beachte PK i.i.d. PK f = k=1 fk ϕk und benutze Orthogonalität): K h i hX i σ2 Ef kfˆn,K −f k2L2 = Ef (ĉk −ck )2 +kPK f −f k2L2 = kf −PK f k2L2 + K. n k=1 Diesmal ergibt sich das Bias-Varianz-Dilemma in der Wahl von K des Ansatzraumes kf − PK f k2L2 , desto gröÿer K . Je gröÿer die Dimension ist, desto kleiner ist der Approximati- onsfehler jedoch die Varianz σ2 n K. 3.18 Lemma. Es seien fˆn,K der Projektionsschätzer im Regressionsmodell mit deterministischem Design, f ∈ L2 (D) und σ 2 := E[ε2i ] < ∞. Dann gilt folgende Bias-Varianz-Zerlegung für fˆn,K in der empirischen Norm: Ef [kfˆn,K − f k2n ] = kf − PK f k2n + σ 2 Kn−1 , wobei PK die Orthogonalprojektion auf span(ϕ1 , . . . , ϕK ) bezüglich dem empirischen Skalarprodukt bezeichnet. 27 Im Regressionsmodell mit zufälligem Design, f ∈ L2 (D) und σ 2 (x) := Varf (Yi | Xi = x) < ∞ PXi -f.s. ergibt sich entsprechend K 1X Ef [kfˆn,K − f k2n ] = Ef [kf − PK f k2n ] + Ef [σ 2 (Xi )ϕ2k (Xi )]. n k=1 Beweis. Bei deterministischem Design erweitern wir (ϕk )16k6K im Fall K < n zu einer Orthonormalbasis (ϕk )k=1,...,n von L2 (D, k•kn ) und erhalten Ef [kfˆn,K − f k2n ] n hX i = Ef hfˆn,K − f, ϕk i2n k=1 = K X k=1 = K X n X Ef [hfˆn,K − f, ϕk i2n ] + Ef [hf, ϕk i2n ] k=K+1 Varf k=1 n 1 X n Yi ϕk (xi ) + i=1 = kf − PK f k2n + hf, ϕk i2n k=K+1 K X σ2 k=1 = kf − PK f k2n + K n X n kϕk k2n σ2 . n Bei zufälligem Design erhalten wir zunächst durch Bedingung auf das Design Ef [kfˆn,K − f k2n | (Xi )] = kf − PK f k2n + n K X Varf (Yi ϕk (Xi ) | Xi ). n2 i=1 Integrieren über die Verteilung von Xi liefert K 1X Ef [σ 2 (X)ϕ2k (X)]. Ef [kfˆn,K − f k2n ] = Ef [kf − PK f k2n ] + n k=1 3.19 Bemerkungen. (a) Für K = n interpolieren wir nur die Daten: der Biasterm ist gleich Null, aber der Varianzterm gleich σ2. Für kleine Werte von K kann man dieses Resultat auch als Quantizierung einer möglichen Modellmisspezikation lesen. Setzen wir beispielsweise eine lineare Regressionsgerade an, so schätzen wir im Prinzip die beste lineare Approximation an unsere allgemeine Regressionsfunktion, und der entsprechende Approximationsfehler erscheint im Risiko. 28 (b) Beachte, dass bei all diesen Rechnungen die empirische Norm die natürliche Verlustfunktion bezeichnet, da die Schätzung durch Orthogonalprojektion in dieser Geometrie erfolgt. Im Fall von zufälligem Design ist dann jedoch sowohl der empirische Verlust als auch die Projektion zufällig. Es wird eine starke gleichmäÿige Konzentrationseigenschaft der n bestimmten Norm k•kn um die (Xi ) bestimmte Norm k•kX benötigt, Vorhersagefehler (prediction error) kfˆn,K − f k2X durch die empirische Verteilung von durch die wahre Verteilung der um den sogenannten zu kontrollieren, vergleiche Kapitel 11 in Györ, Kohler, Krzy»ak, and Walk (2002). Ein wesentlicher Vorteil der Projektionsschätzung ist es, dass für das entsprechende Anwendungsproblem maÿgeschneiderte Basisfunktionen verwendet werden können. Um die Ergebnisse mit den Kernmethoden zu vergleichen, betrachten wir hier nur den wichtigen Fall regulärer Funktionen f, die auf klassische Approximationstheorie führen. 3.20 Denition. (VK )K>1 ⊆ L2 (D), D ⊆ Rd , eine Folge endlichdimensionaler Unterräume mit wachsender Dimension dK := dim(VK ) ↑ ∞. Diese heiÿen Approximationsräume der Ordnung m, falls für alle K > 1, f ∈ HD (s, L), s 6 m + 1, mit einer Konstanten Cs > 0 gilt Es sei −s/d kf − PVK f kL2 = inf kf − fK kL2 6 Cs LdK fK ∈VK mit der L2 (D)-Orthogonalprojektion PVk auf VK . 3.21 Bemerkungen. (a) Beachte, dass das Inmum gerade von der Orthogonalprojektion von f auf VK P VK f angenommen wird. direkte Ungleichungen oder Jackson-Ungleichungen. Sie geben die Approximationsgüte von Uns terräumen wie C (D) durch endliche Unterräume an. Dies kann in (b) Ungleichungen dieser Art heiÿen auch den allgemeinen Zusammenhang mit Entropiezahlen kompakter Mengen eingeordnet werden. L2 -Norm als Verlust betrachten, ist im obigen L2 -Sobolevraum H s (D) und nicht C s (D) die natürliche (c) Da wir die Beispiel der (und beste) Wahl. Wir verzichten hier jedoch auf die Theorie der Sobolevräume auf Teilmengen des BspApproxraum Rd . 3.22 Beispiele. 29 PK sei D = [0, 1] und VK := {ϕ : [0, 1] → R | ϕ = m=1 cm 1[(m−1)/K,m/K) } der Raum der stückweise konstanten Funktionen. Dann gilt für f ∈ H[0,1] (s, L), s 6 1: (a) Es K Z X m/K Z 2 1/K (f (x) − f (m/K)) dx 6 K L2 x2(s∧1) dx 6 L2 K −2s . 0 m=1 (m−1)/K (VK )K>1 Damit besitzen die Approximationsordnung 0. Eine gröÿe- re Approximationsordnung ist nicht zu erwarten, selbst eine lineare K −1 stückweise konj/2 (1 stant approximiert. Durch ϕ := 1[0,1] , ψj,k = 2 [k2−j ,(k+1/2)2−j ) − j 1((k+1/2)2−j ,(k+1)2−j ) ), j = 1, . . . , J , k = 0, . . . , 2 − 1, wird eine OrthoJ normalbasis der geschachtelten VK mit dK = 2 deniert, die bekannte Haarbasis. Man nennt die ψj,k auch Haar-Wavelets. Funktion wird nur mit einem Fehler der Ordnung = [0, 1]d und VK m∈{1,...,K}d cm 1[(m−1)/K,m/K) }, {ϕ : [0, 1]d → R | ϕ = d wobei [(m − 1)/K, m/K) ⊆ R die entsprechenden Würfel bezeichnet (interpretiere 1 = (1, . . . , 1)). Dann gilt für f ∈ H[0,1]d (s, L), s 6 1: Z X (f (x) − f (m/K))2 dx 6 L2 K −2s . (b) Es sei D := P m∈{1,...,K}d Wegen dK = K d [(m−1)/K,m/K) Approximationsordnung (c) Betrachte in (VK )K>1 besitzen L2 ([0, 1]) in Dimension d>2 ebenfalls die 0. die Splineräume der Ordnung M ∈N VK := {ϕ ∈ C M −1 ([0, 1]) | ∀m = 1, . . . , K : ϕ|[(m−1)/K,m/K] 6 M} ist Polynom vom Grad und die Räume der stückweisen Polynome vom Grad M ∈N WK := {ϕ ∈ L2 ([0, 1]) | ∀m = 1, . . . , K : ϕ|[(m−1)/K,m/K] ist Polynom vom Grad 6 M} Es gilt natürlich VK ⊆ WK . Da jedes ϕ ∈ WK durch die Werte ϕ(m/K), ϕ0 (m/K−), . . . , ϕ(M ) (m/K−) an den Knoten m/K eindeutig festgelegt ist, gilt in beiden Fällen dK = O(K). Eine Taylorents wicklung der allgemeinen Funktion f ∈ C ([0, 1]) mit s 6 M + 1 um LemmaRegrBiasVar die Knotenpunkte zeigt (vergleiche z.B. Lemma 3.10), dass die Räume WK der stückweisen Polynome vom Grad onsordnung M M auch die Approximati- besitzen. Dasselbe gilt auch für die Splineräume VK , der Nachweis ist jedoch etwas aufwändiger, siehe z.B. De Boor (2001). Spline-Ansatzfunktionen im Mehrdimensionalen werden im Rahmen der niten Elemente behandelt und besitzen analoge Approximations- eigenschaften. 30 (d) Weitere Beispiele von Approximationsräumen werden durch Basisfunktionen deniert, wie z.B. Polynome, stückweise Polynome oder trigo- DefSobraum01 nometrische Polynome (vergleiche dazu Denition 3.38). Im Modell des Signals im weiÿen Rauschen erhalten wir bei Funktionen f ∈ C s (D) und Projektionsschätzern auf entsprechende Approximati- onsräume unmittelbar die Abschätzung, dass der MISE von der Ordnung −2s/d + σ 2 n−1 dK ) ist, also −2s/(2s+d) ). Ordnung O(n O(dK der bei optimaler Wahl der Dimension dK von 3.23 Satz. Es sei fˆn,K der Projektionsschätzer im Regressionsmodell mit äquidistantem Design in D = [0, 1]d auf Approximationsräume (VK ) mit Approximationsordnung m. Mit dK := dim(VK ) gelte für alle K > 1, f ∈ HD (s, L), 1 6 s 6 m + 1, mit einer Konstanten Cs0 > 1 −(s−1)/d k(f − PVK f )0 k∞ 6 Cs0 LdK . Im Fall σ 2 := E[ε2i ] < ∞ gilt dann folgende Abschätzung des Risikos in empirischer Norm: sup f ∈HD (s,L) −2s/d Ef [kfˆn,K − f k2n ] 6 Cs2 L2 dK (1 + O(Cs02 (d2K /n)1/d )) + σ 2 dK n−1 . Unter Vernachlässigung des Terms O(Cs02 (d2K /n)1/d ) ergibt Optimierung in der Dimension dK (so der Wert ganzzahlig ist und angenommen wird, sonst benutze Approximation) d∗K := 2sC 2 L2 n d/(2s+d) s σ2d , und wir erhalten sup f ∈HD (s,L) Ef [kfˆn,K − f k2n ] 6 2s + d σ 2 2s/(2s+d) × 2s n 2sC 2 L2 d/(2s+d) 2 s × (1 + O(n−(2s−d)/(2ds+d ) )). d Insbesondere ergibt sich die Rate O(n−2s/(2s+d) ) für s > d/2. Beweis. Nach dem vorangegangenen Lemma reicht es, den Bias n1/d ∈ N): kf − PVK f k2n − kf − PVK f k2L2 Z X = kf −PVK f kn abzuschätzen (beachte m∈{1,...,n1/d }d [(m−1)/n1/d ,m/n1/d ) (f − PVK f )(m/n1/d )2 − (f − PVK f )(x)2 dx √ dn−1/d k((f − PVK f )2 )0 k∞ √ −1/d 6 2 dn kf − PVK f k∞ k(f − PVK f )0 k∞ . 6 31 xm ∈ D, so gilt Z 1 sup |(f − PVK f )(x)| = (f − PVK f )(xm ) + (f − PVK f )0 (xm + t(x − xm )) dt Ist die Funktion |f − PVK f | minimal bei x∈D 0 6 kf − PVK f kL2 + k(f − PVK f )0 k∞ . Die Approximationseigenschaft der (VK ) (VK ) und die zusätzliche Annahme an liefern daher −2s/d kf − PVK f k2n 6 Cs2 L2 dK −2s/d = Cs2 L2 dK √ −2(s−1)/d + 2 dL2 (Cs Cs0 + Cs02 )n−1/d dK (1 + O(Cs02 (d2K /n)1/d )). Dies ergibt die angegebene Risikoabschätzung, das Risiko für d∗K folgt durch Einsetzen. 3.24 Beispiel. Die Annahme an die Ableitung von f − P VK f ist für die ge- wöhnlichen Approximationsräume erfüllt, so sie aus dierenzierbaren Funk- WK der stückweisen Polynome vom Grad M . Dort erfüllt das Taylorpolynom fK M -ten Grades s 0 von f ∈ C , s > M , bei einem x0 ∈ D gerade, dass fK das Taylorpolynom 0 s−1 (M −1)-ten Grades an f ∈ C ist. Die Standardabschätzungen implizieren tionen bestehen. Betrachte beispielsweise die Räume dann direkt die Annahme. 3.5 Wörterbücher und LASSO-Methode In vielen Anwendungen gibt es verschiedene potentiell gut approximierende Basisfunktionen für die unbekannte Regressionsfunktion. Dies ist gerade bei höherdimensionalem Design wichtig, weil der Fluch der Dimension den Approximationsfehler betrit. Man denke an Funktionen f : [0, 1]d → R, die einerseits durch stückweise konstante Funktionen auf Unterwürfeln, andererseits auch durch Polynome kleinen Grades in d Variablen bzw. auch einer Linearkombination dieser beiden Funktionsklassen gut approximiert werden könnte. Die naheliegende Idee ist es, ein ganzes Wörterbuch (ψj )j=1,...,p von Ansatzfunktionen in Betracht zu ziehen und die Regressionsfunktion durch eine Linearkombination einiger weniger dieser Ansatzfunktionen zu approximieren bzw. zu schätzen: f ≈ Pp j=1 βj ψj mit vielen βj = 0. Vielerlei Techniken sind vorgeschlagen, dieses Problem anzugehen (prominent sind projection and matching pursuit, LARS), wir konzentrieren uns auf die auch anderweitig populäre LASSO-Methode, siehe Bühlmann and van de Geer (2011). Aus der parametrischen Statistik wäre der erste Ansatz, einen Schätzer P fˆ = pj=1 β̂j ψj aus den Regressionsdaten zu schätzen, die Lösung des Kleinste-Quadrate-Ansatzes β̂ = argminβ∈Rp kY − 32 Pp 2 j=1 βj ψj kn mit der empirischen Norm k•kn wie zuvor. Vorteilhaft ist, dass dies auf einen linearen Schätzer führt, der explizit die Form β̂ = G−1 n (hY, ψj in )j=1,...,p mit der Gram-Matrix besitzt, sofern die Matrix invertierbar ist (was Gn = (hψj , ψj 0 in )j,j 0 =1,...,p p 6 n voraussetzt!), sonst mit einer entsprechenden verallgemeinerten Inversen. Problematisch ist dabei natürlich die Unterglättung ggf. sogar Interpolation der Daten, weil p mit n wachsen wird und nicht wie im parametrischen Fall konstant bleibt. Insbesondere werden viele Koezienten β̂j nicht Null sein, obwohl wir ja gerade eine gute Approximation f durch eine sparsame Darstellung (sparse representation) mit wenigen signikanten βj anstreben. Um dies zu verwirklichen, ist es naheliegend, eine Penalisierung einzuführen und den Koezientenvektor durch n o P β̂ = argminβ∈Rp kY − pj=1 βj ψj k2n + λ|β|`0 mit einem Penalisierungsparameter λ>0 mit |β|`0 = |{j : βj 6= 0}| zu schätzen. Man kann allerdings zeigen, dass diese nichtkonvexe Optimierungsaufgabe für groÿe Dimension p NP-vollständig und damit algorithmisch quasi unmöglich ist. Erstaunli- cherweise erweist sich der durch sogenannte `1 -penalisierte konvexe Relaxation gewonnene kleinste-Quadrate-Schätzer nicht nur als ezient implemen- tierbar, sondern auch statistisch äuÿerst geeignet. 3.25 Denition. Im Regressionsmodell mit deterministischem Design (xi ) D, nennen wir die Menge der Ansatzfunktionen ψj : D → R, j = 1, . . . , p, mit kψj kn = 1 ein Wörterbuch. Im Fall p > n heiÿt dieses übervollständig Pp (overcomplete dictionary). Der zugehörige Lasso-Schätzer fˆ = j=1 β̂j ψj ist in bestimmt durch das konvexe Minierungsproblem β̂ = argminβ∈R p Hierbei ist λ>0 n o Pp 2 kY − j=1 βj ψj kn + λ|β|`1 mit |β|`1 = Pn j=1 |βj |. ein geeignet zu wählender Penalisierungsparameter. 3.26 Lemma. P riges f∗ = (Fundamentale Ungleichung) Für jedes β ∗ ∈ Rp und zugehö∗ j βj ψj gilt kfˆ − f k2n + λ|β̂|`1 6 2hε, fˆ − f in + kf ∗ − f k2n + λ|β ∗ |`1 . Beweis. kY − fˆk2n + λ|β̂|`1 6 kY − f ∗ k2n + λ|β ∗ |`1 2 2 von kf kn − kY kn auf beiden Seiten Aus Addition schlieÿen wir durch kf k2n − 2hY, fˆin + kfˆk2n + λ|β̂|`1 6 kf k2n − 2hY, f ∗ in + kf ∗ k2n + λ|β ∗ |`1 . Die Behauptung folgt durch Einsetzen von 33 Y = f +ε und Umsortieren. Im Folgenden wird stets ein beliebiger, aber fester und deterministischer β ∗ betrachtet, der die Rolle der theoretisch bestmöglichen Wahl (Orakelwahl) übernimmt, die beim nichtlinearen Lasso-Schätzer nicht mehr explizit ist (vergleiche PVK f beim Projektionsschätzer). Gäbe Koezientenvektor es in obiger fundamentaler Ungleichung nicht den stochastischen Fehlerterm 2hε, fˆ − f in , so könnten wir unmittelbar schlieÿen, dass unser datengetrie- bener Schätzer fˆ sogar mindestens so gut ist wie der Orakelschätzer zumindest bezüglich hε, fˆ − f in = `1 -penalisiertem L2 -Verlust. f ∗, Durch p X (β̂j − βj∗ )hε, ψj in 6 |β̂ − β ∗ |`1 max |hε, ψj in | j=1,...,p j=1 erhalten wir eine grobe, aber sehr geeignete Abschätzung. Beachte dazu E[hε, ψj in ] = 0 und wird natürlich mit an die Fehler (εi ) p Var(hε, ψj in ) = 1/n wegen kψj kn = 1. Das Maximum stochastisch wachsen, aber unter Momentenannahmen wird später √ √ maxj=1,...,p |hε, ψj in | = OP ( log p/ n) ge- zeigt werden. Zunächst beschränken wir uns einfach auf das gut kontrollierte Ereignis. 3.27 Lemma. Für β ∗ ∈ Rp sei S∗ = {j : βj∗ 6= 0}, G = { max |hε, ψj in | 6 λ/8} j=1,...,p P und allgemein bezeichne |β|S = j∈S |βj | die auf Indexmengen S einge1 schränkte ` -Norm von Vektoren β . Dann gilt auf G : 4kfˆ − f k2n + 3λ|β̂|S∗C 6 5λ|β̂ − β ∗ |S∗ + 4kf ∗ − f k2n . Beweis. Nach der vorangegangenen Diskussion gilt auf G: 4kfˆ − f k2n + 4λ|β̂|`1 6 λ|β̂ − β ∗ |`1 + 4kf ∗ − f k2n + 4λ|β ∗ |`1 . Aus |β|`1 = |β|S∗ + |β|S∗C sowie |β ∗ |S∗C = 0 folgt 4kfˆ − f k2n + 3λ|β̂|S∗C 6 −4λ|β̂|S∗ + λ|β̂ − β ∗ |S∗ + 4kf ∗ − f k2n + 4λ|β ∗ |S∗ . Die Behauptung folgt mit (inverser) Dreiecksungleichung. |β̂ − β|S∗ mit dem Verlust kfˆ− f ∗ kn zu 1 2 2 verknüpfen. Der direkte Weg basiert auf der ` -` -Normungleichung |β|S 6 P |S| j∈S βj2 (Cauchy-Schwarz-Ungleichung!) und der Forderung hGn β, βi > ϕ2n |β|`2 für alle β ∈ Rp und ein ϕn > 0, d.h. der kleinste Eigenwert ϕ2n der Gram-Matrix Gn sei positiv. Dies impliziert nämlich p |S∗ | ˆ ∗ |β̂ − β |S∗ 6 kf − f ∗ kn . ϕn Es bleibt, den Koezientenfehler 34 kfˆ − f ∗ kn 6 kfˆ − f kn + kf − f ∗ kn sowie der allgemeinen Ungleichung AB 6 (A/2)2 + B 2 erhält man so als Folgerung p 2 2 ∗ 2 ˆ 4kfˆ − f k2n + 3λ|β̂|S∗C 6 2(5/2λ |S∗ |ϕ−1 n ) + kf − f kn + 5kf − f kn Mit auf G, was zeigt kfˆ − f k2n + λ|β̂|S∗C 6 53 kf ∗ − f k2n + −2 25 2 6 λ |S∗ |ϕn . Die rechte Seite kann dabei als eine verallgemeinerte Bias-Varianz-Zerlegung aufgefasst werden. Der deterministische Approximationsfehler bei einer Ora- kf ∗ − f kn , die obere Schranke für den stochastischen Fehler −2 ∗ |ϕn wächst in der Dimension der aktiven Menge S∗ , fällt aber mit kelwahl ist λ2 |S λ2 , das wir später von der Ordnung p=n log(n)-Rate log(p)/n wählen werden. Als Spezial- (ψj )j=1,...,n fall ergibt sich für und eine Orthonormalbasis nur um eine gröÿerer stochastischer Fehler als beim Projekti- damit ein onsschätzer. Bei einem Orthonormalsystem ist die Gram-Matrix gerade die Einheitsmatrix und somit kann die Gram-Matrix ϕn Gn konstant gleich eins. Im Allgemeinen allerdings für groÿe Dimension p schlecht konditioniert oder sogar singulär werden. Wir fordern daher nur eine weitaus schwächere Kompatibilität der Gram-Matrix bezüglich der `1 -Norm. Dies ist in Anwendungen oft erfüllt, jedoch konkret schwer überprüfbar, siehe Bühlmann and van de Geer (2011) für eine ausführliche Diskussion. 3.28 Denition. bedingung, Eine Indexmenge S ⊆ {1, . . . , p} erfüllt die Kompabilitäts- falls ∃ϕn (S) > 0 ∀β ∈ Rp mit gilt. Andernfalls setzen wir 3.29 Satz. |β|S C 6 3|β|S : hGn β, βi > ϕ2n (S) 2 |β|S |S| ϕn (S) = 0. Auf G gilt für alle β ∗ ∈ Rp die Abschätzung: 2kfˆ − f k2n + λ|β̂|S∗C 6 6kf ∗ − f k2n + 24λ2 |S∗ | , 2 ϕn (S∗ ) wobei im Fall ϕn (S∗ ) = 0 die rechte Seite als unendlich interpretiert sei. Beweis. Wir betrachten die Fälle, dass (a) λ|β̂ − β ∗ |S∗ > kf ∗ − f kn sowie (b) die Negation (d.h. '<') gilt. Aus dem vorangegangenen Lemma folgt im Fall (a) 4kfˆ − f k2n + 3λ|β̂|S∗C 6 9λ|β̂ − β ∗ |S∗ . |β̂ − β ∗ |S∗C 6 3|β̂ − β ∗ |S∗ , β̂ − β ∗ liefert Insbesondere impliziert dies tätsbedingung für S∗ und 4kfˆ−f k2n +3λ|β̂ −β ∗ |`1 ∗ ∗ 6 9λ|β̂ −β |S∗ +3λ|β̂ −β |S∗ 35 und die Kompatibil- p |S∗ | ˆ ∗ kf −f kn . 6 12λ ϕn (S∗ ) 12AB 6 18A2 + 2B 2 und 12AB 6 6A2 + 6B 2 ist 2 |S∗ | beschränkt durch 24λ + 2kfˆ − f k2n + 6kf ∗ − f k2n . ϕn (S∗ )2 Unter Benutzung von die rechte Seite Umsortieren gibt das Resultat im Fall (a). Im (einfacheren) Fall (b) erhalten wir direkt aus dem Lemma 4kfˆ − f k2n + 3λ|β̂|S∗C 6 9kf ∗ − f k2n . Setzt man (b) nochmals ein, so folgt 4kfˆ − f k2n + 3λ|β̂ − β ∗ |`1 6 12kf ∗ − f k2n . Dies ist sogar leicht stärker als die behauptete Ungleichung. 3.30 Satz. Für λ = 8κ q σ2 n log(p) und κ > √ 8 beliebig gilt im Falle sym- d metrischer Fehlerverteilung εi = −εi sowie E[|εi |q ] = Q < ∞ für ein q > 2 2 /8 P (G C ) 6 2p1−κ κ max kψ k q (log p)q/2 j6p j ∞ +Q . σ nq/2−1 Beweis. Wir wollen die Bernsteinungleichung verwenden und führen dazu für R > 0 die beschränkten Zufallsvariablen ε̃i = εi 1(|εi | 6 R) ein, die aus Symmetriegründen ebenfalls zentriert sind. Für diese und festes j erhalten wir dann n X p P (|hε̃, ψj in | > λ/8) = P ψj (xi )ε̃i > κ nσ 2 log(p) i=1 6 2 exp − κ2 log p p . 4(1 + κ (log p)/(nσ 2 )kψj k∞ R) Die grobe Abschätzung des Maximums in j erfolgt durch Summation der Wahrscheinlichkeiten und ergibt so P max |hε̃, ψj in | > λ/8 6 2p exp − j=1,...,p κ2 log p p . 4(1 + κ (log p)/(nσ 2 )kψj k∞ R) Eine ebenso grobe Abschätzung unter Anwendung der Markovungleichung liefert Wähle P (ε̃ 6= ε) 6 nP (|εi | > R) 6 nQR−q . p nun R so, dass κ (log p)/(nσ 2 ) maxj kψj k∞ R = 1 gilt, so folgt p 2 P (G C ) 6 2p1−κ /8 + nQ(κ (log p)/(nσ 2 ) maxkψj k∞ )q , j und damit die Behauptung. Xn = OP (rn ) erinnert, ∀ε > 0∃K > 0∀n ∈ N : P (|Xn | > von Xn /rn sind stra. Für die direkte Folgerung sei an die Schreibweise die für Zufallsvariablen Krn ) 6 ε, Xn bedeutet das heiÿt die Verteilungen 36 3.31 Korollar. (Orakelungleichung) Es gelte E[|εi |q ] < ∞ für ein q > 2 d sowie εi = −εi . Dann folgt kfˆ − f k2n = OP n σ 2 |S∗ | log p o ∗ 2 min kf − f k + , n β ∗ ∈Rp nϕn (S∗ )2 sofern die Dimension p = pn des Wörterbuchs höchstens q polynomiell in n 2 1/2−1/q ) gilt und λ = 8κ σn log(p) mit κ = wächst, maxj6pn kψj k∞ = o(n κn → ∞ hinreichend langsam gewählt ist. (ψj ) ein Orthonormalsystem p 6 n, ϕn (S) = 1 und somit Zum Vergleich betrachte den Fall, wo L2 (D, k•k n ) bildet. Dann gilt stets kfˆ − f k2n = OP in n σ 2 |S∗ | log n o ∗ 2 min kf − f k + . n β ∗ ∈Rp n Insbesondere folgt dadurch aber auch das erstaunliche Ergebnis, dass un- (ψj )j=1,...,n bezüglich dem Ansatzraums VK maximal einen lo- ser Lasso-Schätzer mit einer Orthonormalbasis Projektionsschätzer mit Orakelwahl des garithmischen Faktor verliert: E[kfˆ − f k2n ] = O n σ 2 K log n o kPK f − f k2n + . K=1,...,n n min Wir haben also eine erste Methode kennengelernt, um eine vollkommen adaptive (datengetriebene) Schätzung zu erreichen. Allerdings sei betont, dass die Wahl von λ zwar unabhängig von der Kenntnis von f theoretisch mög- lich ist, die theoretischen Werte aber im Allgemeinen viel zu groÿ sind, um praktisch gute Ergebnisse zu erzielen. Mit der Verbindung von Lasso zum I Übung Soft-Thresholding greifen wir damit späteren Resulaten und Ansätzen schon vor. 3.6 Weitere Schätzmethoden Die Idee einer penalisierten Kleinste-Quadrate-Schätzung im Regressionsmodell fˆn := argming∈G n X |Yi − g(xi )|2 + Pen(g) i=1 mit einem geeigneten Strafterm (penalty) Pen(g) und Optimierung über eine geeignete Funktionenklasse G führt auch auf weitere gute Schätzverfahren. Die Idee ist stets, einen Schätzer zu konstruieren, der die Daten gut approximiert und gleichzeitig adäquate Eigenschaften besitzt. Beispielsweise wird eine kleine Norm in einer Glattheitsklasse von Funktionen erreicht durch R roughness penalty Pen(g) = λ D g (m) (x)2 dx mit λ > 0, m ∈ N. Im m skalaren Fall und mit G = C (D) ergibt sich als I Übung Schätzer dann einen 37 (xi ) eine Spline-Funktion mit Knoten smoothing spline. vom Grad 2m − 1, ein sogenannter Diese Schätzmethode ist in der Praxis oft sehr erfolgreich, zumindest bei guter Wahl von λ. Die Fehleranalyse bedarf anspruchsvol- ler Entropiemethoden. Wir verweisen auf Hastie, Tibshirani, and Friedman (2001) und Györ, Kohler, Krzy»ak, and Walk (2002) für die Details. 3.7 Übertragung auf Dichteschätzung (optional) Natürlich lassen sich analog auch Projektionsschätzer im Dichteschätzproblem konstruieren. Im Detail ergeben sich andere Eigenschaften, aber im Groÿen und Ganzen ist die Theorie die gleiche. 3.32 Denition. Betrachte das Schätzproblem auf einer oenen Teilmenge d D ⊆ R und setze f |D ∈ L2 (D) voraus. Es sei SK ⊆ L2 (D) ∩ C(D) ein K -dimensionaler linearer Unterraum und ϕ1 , . . . ϕK bezeichne eine L2 (D)Orthonormalbasis von SK . Dann ist der Projektionsschätzer auf SK , basierend auf den Beobachtungen X1 , . . . , Xn , deniert als K X fˆn,K (x) := K X n X 1 hµ̂n , ϕk iϕk (x) := k=1 k=1 3.33 Lemma. n ϕk (Xi ) ϕk (x), x ∈ D. i=1 R Es gilt fˆn,K ∈ SK sowie ϕ(x)fˆn,K (x)dx = ϕ(x)µ̂n (dx) für alle ϕ ∈ SK . Diese Eigenschaften charakterisieren fˆn,K unabhängig von der Wahl der Orthonormalbasis (ϕm ). 3.34 Bemerkung. schätzer einfach die R L2 -Funktion, so wäre der ProjektionsOrthogonalprojektion auf SK und damit oensichtlich Wäre µ̂n eine unabhängig von der Basiswahl. Beweis. ˆ P ϕk liegt fn,K oensichtlich ϕ = k hϕ, ϕk iϕk ergeben Als Linearkombination der setzen und die Darstellung Z ϕ(x)fˆn,K (x)dx = D K X n X 1 k=1 = 1 n Z n n X in SK . Ein- ϕk (Xi ) hϕ, ϕk iL2 (D) i=1 ϕ(Xi ) i=1 = ϕ(x)µ̂n (dx). D R R g in SK mit ϕ(x)g(x)dx = ϕ(x)µ̂n (dx) für alle ϕ ∈ SK R erfüllt auch ϕ(x)(fˆn,K (x) − g(x))dx = 0, so dass (fˆn,K (x) − g(x)) ⊥L2 SK und somit fˆn,K (x) − g(x) = 0 gilt. Also ist fˆn,K eindeutig durch diese Jede Funktion Eigenschaften festgelegt. 38 3.35 Satz. Es sei f |D ∈ L2 (D). Dann gilt folgende Bias-Varianz-Zerlegung in L2 (D): für fˆn,K MISED (fˆn,K , f ) = kf −PSK f k2L2 (D) +n−1 K Z X D k=1 ϕk (x)2 f (x) dx−kPSK f k2L2 (D) , wobei PSK : L2 (D) → SK die L2 -Orthogonalprojektion auf SK bezeichnet und kurz f für die Einschränkung f |D steht. Beweis. Wir erweitern (ϕk )16k6K zu einer Orthonormalbasis (ϕk )k>1 L2 (D) und erhalten mit der Parsevalgleichung für MISED (fˆn,K , f ): i hZ Ef (fˆn,K (x) − f (x))2 dx von D ∞ hX i = Ef hfˆn,K − f, ϕk i2L2 (D) k=1 = K X Ef [hfˆn,K − f, ϕk i2L2 (D) ] + k=1 = K X = Ef [hf, ϕk i2L2 (D) ] k=K+1 ∞ X Varf (hfˆn,K , ϕk iL2 (D) ) + hf, ϕk i2L2 (D) k=K+1 k=1 K X ∞ X n −1 Z k=1 2 ϕk (x) f (x) dx − Z D ϕk (x)f (x) dx 2 D = kf − PSK f k2L2 (D) + n−1 K Z X D k=1 + kf − PSK f k2L2 (D) ϕk (x)2 f (x) dx − kPSK f k2L2 (D) . Wiederum sehen wir das Bias-Varianz-Dilemma, sofern wir als Parameter die Dimension K von SK asymptotisch wachsen lassen. Sofern die Approxi- S SK ⊆ SK+1 gilt, und K>1 SK dicht in L2 (D) liegt, konvergiert der Biasterm kf − PSK f kL2 (D) für K → ∞ gegen R PK −1 2 Null. Der Varianzterm wird dominiert von n k=1 ϕk (x) f (x) dx und D R 2 wegen ϕk = 1 sowie f > 0 ist dieser Term von der Ordnung Kn−1 , sofern f beschränkt ist. Halten wir dies als Konsistenzaussage fest. mationsräume aufsteigend sind, also 3.36 Satz. Der Projektionsschätzer fˆn,Kn ist konsistent in L2 (D), falls f S beschränkt ist, SKn ⊆ SKn +1 für alle n > 1 gilt, n>1 SKn dicht in L2 (D) liegt und Kn → ∞ für n → ∞ gilt mit Kn /n → 0. 3.37 Bemerkung. P Für −1 sup durch n x∈D n unbeschränkte Dichten f kann der Varianzterm K 2 k=1 ϕk (x) abgeschätzt werden. Falls K so langsam mit wächst, dass dieser Term gegen Null konvergiert, bleibt das Konsistenzre- sultat für allgemeine Dichten in L2 (D) 39 gültig. Wie wir sehen, ist der Biasterm allgemein durch den Approximationsfehler kf − PSK f kL2 (D) gegeben, und es ist Aufgabe des Statistikers, gute endlich-dimensionale Approximationsräume SK für die Dichte f zu nden. Für Glattheitsklassen steht das Instrumentarium der numerischen Analysis und Approximationstheorie zur Verfügung mit Splines, niten Elementen oder Wavelets. Einfacher sind Ansatzräume mit Polynomen oder trigonometrischen Funktionen. Wir beschränken uns hier auf eine Anwendung mit der Fourierbasis ϕk (x) = e2πikx im komplex-wertigen Funktionenraum L2 ([0, 1]). Genauer werden Projektionsschätzer im Rahmen von Regressionsproblemen untersucht werden. DefSobraum01 3.38 Denition. [0, 1] Der periodische L2 -Sobolevraum der Ordnung s>0 auf ist deniert als X n o s Hper ([0, 1]) := f ∈ L2 ([0, 1]) (1 + k 2 )s |hf, ϕk iL2 ([0,1]) |2 < ∞ . k∈Z Wir denieren (für diese Vorlesung) die entsprechende Sobolevnorm X 1/2 2 s 2 kf ks := (1 + k ) |hf, ϕk iL2 ([0,1]) | . k∈Z Man kann wiederum zeigen, dass für dierenzierbaren Funktionen s ([0, 1]) Hper f s ∈ N genau die s-mal schwach mit quadrat-integrierbaren Ableitungen in liegen, wobei am Intervallrand die Argumente modulo 1 genom- men werden. Für ungerade K∈N setze SK := span(ϕk , k = −(K − 1)/2, . . . , (K − 1)/2). Für Dichten f in s ([0, 1]) Hper erhalten wir so die Biasabschätzung X kf − PSK f k2L2 (D) = |hf, ϕk i|2 |k|>(K+1)/2 6 (1 + (K + 1)2 /4)−s kf k2Hper s = O(K −2s ). kϕk k∞ 6 1 ist der Varianzterm von der Ordnung O(n−1 K). Wählt 1/(2s+1) c, was raten-asymptotisch optimal ist, so ergibt sich man K = bn s für f ∈ Hper ([0, 1]) ein MISE des Projektionsschätzers von der Ordnung −2s/(2s+d) O(n ). Diese Rate gilt gleichmäÿig über die Sobolevklasse X n o s f ∈ F1 ∩ Hper ([0, 1]) (1 + k 2 )s |hf, ϕk iL2 ([0,1]) |2 6 R Wegen k∈Z für jedes feste R > 0. Die Konvergenzrate ist dieselbe wie für Dichten H s (R) und Kerndichteschätzer. 40 f in Mit der d-dimensionalen Fourierbasis erzielt man die Konvergenzrate O(n−2s/(2s+d) ) des MISE für Funktionen in Sobolevklassen der Ordnung s > 0. Andere Schätzmethoden liefern im wesentlichen dieselbe Konvergenzrate. Dies führt auf die spannende Frage, ob diese Konvergenzrate universell ist in dem Sinne, dass keine Folge von Schätzern asymptotisch einen geringeren MISE aufweisen kann. Wenn man bedenkt, dass Schätzer beliebige messbare Funktionen der Beobachtungen sind, ist es bemerkenswert, dass man in der Tat eine solche untere Schranke in vielen Situationen beweisen kann. 4 Untere Schranken 4.1 Allgemeine Strategie Wir haben gesehen, dass Kerndichte- und Projektionsschätzer bei geeigneter Bandweitenwahl für punktweises und die wahre Dichte f L2 -Risiko mit gewissen Raten gegen konvergieren. Ziel ist es nun, zu zeigen, dass diese Raten optimal sind. Dazu mache man sich zunächst klar, dass es keinen Sinn ergibt, das Risiko für eine feste Dichte konstante Schätzer fˆn := f f von unten abzuschätzen: dann besitzt der das Risiko Null. Ein Standardansatz ist daher, das maximale Risiko über eine feste Parametermenge zu betrachten. Dafür können in der Tat untere Schranken hergeleitet werden. Die Strategie für den Beweis unterer Schranken beruht stets auf denselben Konzepten. Zunächst ist eine Klasse f vorgegeben. Zu jedem tungen im n-ten f ∈G n bezeichne Modell (z.B. G von Parametern Pf,n die Verteilung (Funktionen) der Beobach- i.i.d. Beobachtungen gemäÿ einem Pf ). Das d und wir ben das maximale quadratische Risiko Risiko ergibt sich als Erwartungswert über eine (Semi-)Metrik trachten für jeden Schätzer über G: fˆn in Modell RG (fˆn ) := sup Ef,n [d(fˆn , f )2 ]. f ∈G Bislang haben wir dieses Risiko für bestimmte Schätzer und Hölder- bzw. Sobolevklassen von oben abgeschätzt. Nun wollen wir eine untere Schranke für dieses Risiko für beliebige Schätzer beweisen. 4.1 Denition. n-ten Es sei (vn )n>1 eine Nullfolge und es gebe Schätzer fˆn im Modell, so dass lim sup vn−2 sup Ef,n [d(fˆn , f )2 ] < ∞ n→∞ gilt. Dann heiÿt f ∈G (vn ) optimale Konvergenzrate im Minimaxsinn über gleichzeitig lim inf vn−2 inf sup Ef,n [d(ϑ̂n , f )2 ] > 0 n→∞ ϑ̂n f ∈G 41 G, falls gilt, wobei sich das Inmum über alle Schätzer (d.h. messbaren Funktionen) ϑ̂n in Modell n erstreckt. 4.2 Bemerkung. Wir betrachten hier den quadrierten Abstand, natürlich sind aber auch andere Momente oder Funktionen des Abstands denkbar und gebräuchlich. Man beachte, dass die optimale Konvergenzrate nur die Ord- vn = n−s/(2s+1) und vn0 = 7n−s/(2s+1) 00 −s/(2s+1) eine langsamere Kongleichbedeutend sind, während vn = (n/ log n) nung angibt, in diesem Sinne also vergenzrate angibt. Sind wir auch an asymptotischen Konstanten interessiert (den Grenzwerten), so wird die Situation um einiges schwieriger. In gewissen Fällen können sogenannte Pinsker-Konstanten nachgewiesen werden, vergleiche Tsybakov (2004). Wir diskutieren nun, wie der Nachweis einer unteren Schranke auf ein Testproblem reduziert werden kann, und geben in diesem allgemeinen Rahmen bereits untere Schranken an. Beachte zunächst, dass es ausreicht, untere Schranken für die stochastische Konvergenz nachzuweisen. Wegen ∀α > 0 : vn−2 Ef,n [d(ϑ̂n , f )2 ] > α2 Pf,n (d(ϑ̂n , f ) > αvn ) genügt es für ein α>0 folgende Asymptotik nachzuweisen: lim inf inf sup Pf,n (d(ϑ̂n , f ) > αvn ) > 0. n→∞ ϑ̂n f ∈G Die Reduktion auf ein Testproblem besteht nun darin, eine endliche Teilmenge {f1 , . . . , fM } ⊆ G zu betrachten, mit ∀k 6= l : d(fk , fl ) > 2αvn . Damit erhalten wir für jeden Schätzer ϑ̂n sup Pf,n (d(ϑ̂n , f ) > αvn ) > max Pfj ,n (d(ϑ̂n , fj ) > αvn ) j=1,...,M f ∈G > max Pfj ,n (ψn∗ 6= j), j=1,...,M ψn∗ := argminj=1,...,M d(ϑ̂n , fj ) den auf ϑ̂n beruhenden MinimumDistanz-Test zwischen den M Hypothesen Hj : f = fj bezeichnet. Können wobei wir nun nachweisen, dass lim inf inf max Pfj ,n (ψn 6= j) > 0 n→∞ ψn j=1,...,M gilt für alle Tests ψn in Modell n, so folgt insbesondere die untere Schranke für das Schätzproblem. 42 SatzMHypothesenTest 4.3 Satz. Es seien P1 , . . . , PM Wahrscheinlichkeitsmaÿe auf (X , F ), die bezüglich einem Maÿ PMµ absolut-stetig sind mit Dichten p1 , . . . , pM (man kann z.B. stets µ = i=1 Pi betrachten). Dann gilt für jeden Test ψ : X → {1, . . . , M } zwischen den M Hypothesen Z M 1 X 1 max Pj (ψ = 6 j) > Pj (ψ = 6 j) > 1 − j=1,...,M M M X max pj (x) µ(dx) j=1,...,M j=1 Beweis. Die erste Ungleichung gilt, weil der Durchschnitt stets kleiner oder gleich dem Maximum ist. Für die zweite Ungleichung beachte M M Z 1 X 1 X Pj (ψ 6= j) = 1 − 1(ψ(x) = j)pj (x) µ(dx) M M j=1 j=1 Z X M 1 1(ψ(x) = j)pj (x) µ(dx). =1− M j=1 Nun beachte, dass der letzte Integrand maximal gleich max Pj (ψ 6= j) > 1 − j=1,...,M 1 M maxj pj (x) ist, so dass Z max pj (x) µ(dx) j=1,...,M folgt, wie behauptet. Verwenden wir diesen Satz, so erhalten wir insgesamt die Abschätzung inf ϑ̂n sup vn−2 Ef,n [d(ϑ̂n , f )2 ] f ∈G >α 2 1 1− Mn Z max X j=1,...,Mn pj,n (x) µn (dx) , wobei wir auf der rechten Seite die mögliche Abhängigkeit von n der Grö- ÿen angeben. Beachte, dass wir bereits einen groÿen Schritt gemacht haben, indem auf der rechten Seite kein Inmum mehr erscheint. Es bleibt, das Integral möglichst gut abzuschätzen, wozu wir im folgenden Abstandsmaÿe für Wahrscheinlichkeiten untersuchen werden. Beachte, dass die gröÿte Herausforderung ist, die endliche Teilmenge f1,n , . . . , fMn ,n a priori so ge- schickt zu wählen, dass obige Ungleichungen nicht zu Verlusten in der Rate führen. Im Bayesschen Sinne sollte die Gleichverteilung auf zu einer ungünstigsten a priori-Verteilung im Modell n f1,n , . . . , fMn ,n führen (zumindest approximativ). 4.4 Denition. Abstand Für zwei Maÿe µ und ν auf (X , F ) ist der Totalvariations- gegeben durch kµ − νkT V := sup |µ(A) − ν(A)|. A∈F 43 4.5 Bemerkung. Die Totalvariationsnorm kµkT V := supA∈F |µ(A)| ist eine Norm im Raum aller endlichen signierten Maÿe und spielt eine groÿe Rolle in Maÿtheorie und Funktionalanalysis, siehe z.B. Elstrodt (2007), Werner (2007). LemmaTV 4.6 Lemma. Es seien P und Q Wahrscheinlichkeitsmaÿe auf (X , F ) mit Dichten p und q bezüglich einem Maÿ µ. Dann gilt: (a) 0 6 kP − QkT V 6 1; R R (b) kP − QkT V = 12 X |p(x) − q(x)| µ(dx) = X max(p(x), q(x)) µ(dx) − 1. Beweis. Teil (a) folgt direkt aus der Denition wegen P(X ) = Q(X ) = 1. R R |A−B| = 2 max(A, B)−A−B sowie pdµ = qdµ = 1 brauchen wir ∗ in Teil (b) nur die erste Identität zu zeigen. Setzt man A := {x ∈ X | p(x) > R ∗ q(x)}, so gilt A ∈ F sowie wegen (p − q)dµ = 0 Z Z 1 P(A∗ ) − Q(A∗ ) = (p(x) − q(x)) µ(dx) − (p(x) − q(x)) µ(dx) 2 X AZ∗ 1 = |p(x) − q(x)|µ(dx). 2 X R 1 Dies zeigt kP − QkT V > 2 X |p(x) − q(x)| µ(dx). Andererseits gilt für beliebiges A ∈ F Z |P(A) − Q(A)| = (p(x) − q(x))(1(A ∩ A∗ ) + 1(A \ A∗ )) µ(dx) X ∗ ∗ ∗ ∗ 6 max P(A ) − Q(A ), Q(X \ A ) − P(X \ A ) . Wegen P(X ) = Q(X ) = 1 folgt, dass die beiden Argumente von max gleich sind R 1 und insbesondere mit 2 X |p(x)−q(x)|µ(dx) zusammenfallen. Dies impliziert Aus die behauptete Identität. Aus statistischer Sicht hat der Totalvariationsabstand eine natürliche Interpretation als Minimaxfehler beim Testen. 4.7 Korollar. Dann gilt Es seien P0 und P1 Wahrscheinlichkeitsmaÿe auf (X , F ). inf max Pj (ψ 6= j) > inf ψ j=0,1 ψ 1 1 P0 (ψ = 1) + P1 (ψ = 0) = 1 − kP0 − P1 kT V , 2 2 wobei sich das Inmum über beliebige Tests (messbare Funktionen ψ : X → {0, 1}) zwischen den Hypothesen H0 : P = P0 und H1 : P = P1 erstreckt. Die untere Schranke wird vom Neyman-Pearson-Test ψN M (x) := 1(p1 (x) > p0 (x)) erreicht, wobei p0 , p1 die Dichten von P0 , P1 bezüglich irgendeinem Maÿ µ bezeichnen. 44 Beweis. SatzMHypothesenTest Aus Satz 4.3 folgt 1 P0 (ψ = 1) + P1 (ψ = 0) ψ 2 Z 1 max(p0 (x), p1 (x))µ(dx), >1− 2 inf max Pj (ψ 6= j) > inf ψ j=0,1 wobei ein Blick auf den Beweis oder einfaches Einsetzen zeigt, dass für ψN M die untere Schranke in der zweiten Ungleichung angenommen wird. Aus Teil (b) im vorangegangenen Lemma folgt daher die Behauptung. 4.8 Beispiele. (a) Gilt P0 = P1 , so sind Hypothese und Alternative nicht unterscheid- bar. Die Summe der Fehlerwahrscheinlichkeiten erster und zweiter Art sind für jeden Test gleich Eins. Ein randomisierter Test mit Wahrscheinlichkeit 1/2 maxj=0,1 Pj (ψ 6= j) = 1/2. (b) Sind 0, für H0 bzw. H1 ψ, der sich entscheidet, erreicht auch P0 und P1 singulär, gibt es also ein A ∈ F mit P0 (A) = 1, P1 (A) = kP0 − P1 kT V = 1 und der Neyman-Pearson-Test so erhalten wir entscheidet fast sicher korrekt zwischen Hypothese und Alternative. Für unser Ziel, untere Schranken im Schätzproblem herzuleiten, ergibt LemmaTV sich aus Lemma 4.6 im Fall einer Reduktion auf ein einfaches Testproblem (M = 2): inf sup Ef,n [d(ϑ̂n , f )2 ] > ϑ̂n f ∈G α2 vn2 1 − kPf1 ,n − Pf2 ,n kT V . 2 Diese Ungleichung ist bereits sehr nützlich, allerdings ist in vielen Fällen die Totalvariationsnorm sehr schwierig direkt abzuschätzen. Wir führen daher ein weiteres Abstandsmaÿ ein. 4.9 Denition. Messraum Für zwei Wahrscheinlichkeitsmaÿe (X , F ) P und Q auf demselben heiÿt (R KL(P | Q) = X log dP d Q (x) +∞, Kullback-Leibler-Divergenz (oder Entropie) von P bezüglich Q. P(dx), falls P Q, sonst auch 4.10 Lemma. Kullback-Leibler-Abstand, relative KL(P | Q) ist keine Metrik (nicht einmal die Symmetrisierung KL(P | Q) + KL(Q | P) ist eine). Es gelten jedoch folgende Eigenschaften: 45 (a) Gilt P Q und existieren Dichten p und q von P bzw. Q bezüglich einem Maÿ µ, so gilt Z p(x) KL(P | Q) = log p(x) µ(dx); q(x) pq>0 (b) KL(P | Q) ∈ [0, +∞] sowie KL(P | Q) = 0 ⇐⇒ P = Q; (c) für Produktmaÿe gilt KL(P1 ⊗ P2 | Q1 ⊗ Q2 ) = KL(P1 | Q1 ) + KL(P2 | Q2 ), insbesondere KL(P⊗n | Q⊗n ) = n KL(P | Q). Beweis. I SatzPinsker Übung 4.11 Satz (Pinsker). Folgende Ungleichungen gelten für Wahrscheinlichkeitsmaÿe P und Q: p (a) kP − QkT V 6 KL(P | Q)/2; R (b) (log(d P /d Q))− dP 6 kP − QkT V , falls P Q (man setzt A− := max(−A, 0)). 4.12 Bemerkung. die Konvergenz Aus Teil (a) folgt insbesondere, dass KL(Pn | P) → 0 Pn → P in Totalvariationsnorm impliziert. I Übung Man kann zeigen, dass die Umkehrung nicht gilt, auch nicht unter der Voraussetzung Pn P für alle Beweis. Für Teil (a) genügt es ebenfalls, nur den Fall n. PQ zu behandeln. Betrachte dazu die Funktion h(z) := z log(z) − z + 1, wobei man z log(z) = 0 für z=0 z > 0, stetig ergänzt. I Übung Man kann zeigen, dass ∀ z > 0 : ( 34 + 23 z)h(z) > (z − 1)2 LemmaTV gilt. Daraus schlieÿen wir mittels Lemma 4.6 für µ-Dichten p und q sowie mit der Cauchy-Schwarz-Ungleichung: Z 1 |p(x) − q(x)| µ(dx) 2 Z 1/2 1 6 q(x) ( 43 + 2p(x) )h(p(x)/q(x)) µ(dx) 3q(x) 2 q>0 Z 1/2 Z 1/2 1 2p(x) 6 ( 4q(x) + ) µ(dx) q(x)h(p(x)/q(x)) µ(dx) 3 3 2 q>0 Z 1/2 1 =√ p(x) log(p(x)/q(x)) µ(dx) 2 pq>0 p = KL(P | Q)/2. kP − QkT V = 46 setze A := {x ∈ X | q(x) > p(x) > 0}. Wegen R Um Teil (b) nachzuweisen, R log(d P /d Q) d P = log(d Q /d P)d P folgt aus P(A) = 0 oensichtlich − A RX X log(d P /d Q)− d P = 0. Nehme also P(A) > 0 an und schlieÿe mittels Jensenscher Ungleichung Z Z p(x) log(q(x)/p(x)) µ(dx) P(A) A Z q(x) p(x) 6 P(A) log µ(dx) A p(x) P(A) = P(A) log(Q(A)/ P(A)) log(d P /d Q)− d P = P(A) A 6 Q(A) − P(A) = kQ − PkT V . Indem wir die Abschätzung aus Teil (a) des Satzes verwenden, erhalten wir auch eine untere Schranke bei Reduktion auf ein einfaches Testproblem in Kullback-Leibler-Version. Wir fassen zusammen. SatzUntereSchranke2 4.13 Satz. Es seien f1 , f2 ∈ G mit d(f1 , f2 ) > 2αvn für ein α > 0. Für die zugehörigen Verteilungen gelte mit einem δ > 0 kPf1 ,n − Pf2 ,n kT V 6 1 − 2δ oder KL(Pf1 ,n | Pf2 ,n ) 6 2(1 − 2δ)2 . Dann erhalten wir die untere Schranke inf sup Ef,n [d(ϑ̂n , f )2 ] > α2 vn2 δ. ϑ̂n f ∈G ⊗n Im Fall eines Produktmodells Pf1 ,n = P⊗n f1 , Pf2 ,n = Pf2 genügt die Bedingung KL(Pf1 | Pf2 ) 6 2(1 − 2δ)2 n−1 . Es wird sich herausstellen, dass für punktweises Risiko diese Reduktion ausreicht, während für den MISE oder gleichmäÿiges Risiko eine Reduktion SatzMHypothesenTest auf ein Testproblem mit mehreren Hypothesen notwendig ist. Nach Satz 4.3 bedarf es dazu einer Abschätzung des Maximums der jeweiligen Dichten. M = 2 war dafür der Totalvariationsabstand das natürliche Werkzeug. Fall M > 2 zeigt sich, dass unmittelbar die Kullback-Leibler-Divergenz Für Im verwendet werden sollte. SatzUntereSchrankeM 4.14 Satz. Es seien f1 , . . . , fM ∈ G mit d(fk , fl ) > 2αvn für ein α > 0 und alle k 6= l. Es bezeichne P0 ein Wahrscheinlichkeitsmaÿ mit Pfj ,n P0 für alle j und setze δ := max M 1 X 1 KL(Pfj ,n | P0 ), . M M j=1 47 Dann erhalten wir die untere Schranke 2 inf sup Ef,n [d(ϑ̂n , f ) ] > ϑ̂n f ∈G α2 vn2 1− 2δ + √ 2δ p . log(M ) + log(δ + δ/2) Für δ > 1/2 gilt die gröbere Abschätzung inf sup Ef,n [d(ϑ̂n , f )2 ] > α2 vn2 1 − ϑ̂n f ∈G Beweis. 4δ . log(M ) Mittels Jensenscher Ungleichung, angewendet auf die monotone und konvexe Funktion H(z) := z(log z)+ , z > 0, SatzPinsker erhalten wir unter Benutzung der Ungleichungen aus Satz 4.11 h i h i H E0 max pj 6 E0 H max pj j=1,...,M j=1,...,M h i = E0 max H(pj ) j=1,...,M 6 M X E0 [H(pj )] j=1 = M X Z KL(Pj | P0 ) + pj (x)(log pj (x))− P0 (dx) j=1 6 M X KL(Pj | P0 ) + kPj − P0 kT V j=1 6 M X KL(Pj | P0 ) + q KL(Pj | P0 )/2 . j=1 Mit der Jensenschen Ungleichung folgt M q M 1 X 1/2 p 1 X KL(Pj | P0 )/2 6 KL(Pj | P0 )/2 6 δ/2. M M j=1 j=1 H −1 (x) 6 2x/ p log x für x > 1 (wende H auf beide Seiten an), so dass wir wegen M (δ + δ/2) > 1 erhalten √ h i p 2δ + 2δ −1 p E0 max pj 6 H (M δ + M δ/2) 6 M . j=1,...,M log(M ) + log(δ + δ/2) Die Inverse von H erfüllt SatzMHypothesenTest Daher liefert Satz 4.3 die behauptete Abschätzung. Die Vereinfachung ergibt √ sich aus 2δ 6 2δ für 2δ > 1. 48 4.2 Dichteschätzprobleme Wir wenden nun das allgemeine Schema zum Beweis unterer Schranken auf das Dichteschätzproblem mit punktweisen Risiko bzw. MISE an. Jeweils der wichtigste Schritt ist das Aunden ungünstigster Alternativen. Beim punktweisen Risiko in einem Punkt x ist es natürlich, Dichten zu betrachten, die sich nur in einer kleinen Umgebung von x unterscheiden, um nicht zusätz- liche Informationen aus weiter entfernt liegenden Beobachtungen preiszugeben. In der Tat führt eine lokale Störung um x von einer gegebenen Dichte für Hölderklassen zum Erfolg. Zunächst sei aber eine hilfreiche Abschätzung formuliert. 4.15 Lemma. Für Wahrscheinlichkeitsmaÿe P und Q mit P Q gilt Z 2 dP 2 2 2 KL(P | Q) 6 χ (P, Q) mit dem χ -Abstand χ (P, Q) = − 1 dQ. dQ R dP Beweis. Die Ungleichung log(1 + x) 6 x sowie d Q d Q = 1 zeigen Z KL(P | Q) = Z Z dP 2 dP dP log dP 6 −1 dQ = − 1 dQ. dQ dQ dQ dQ dP 4.16 Satz. Betrachte das Dichteschätzproblem für die Hölderklasse HD (α, L, R) mit α, L, R > 0 auf einem Gebiet D ⊆ Rd und x0 ∈ D. Dann gilt die asymptotische untere Schranke lim inf n2α/(2α+d) inf n→∞ sup Ef,n [|ϑ̂n − f (x0 )|2 ] > 0, ϑ̂n f ∈HD (α,L,R) wobei sich das Inmum über beliebige Schätzer ϑ̂n basierend auf n Beobachtungen erstreckt. Die Rate n−α/(2α+d) ist die optimale Minimaxrate für dieses Problem. Beweis. f ∈ HD (α, L0 , R0 ) mit L0 < L, R0 < R sowie f (x0 ) > 0 d beliebig gegeben. Weiterhin sei ϕ : R → R eine glatte R(mindestens αd reguläre) Funktion mit Träger in [−1, 1] und ϕ(0) > 0, ϕ = 0. Dann ist für γ ∈ (0, f (x0 )/kϕk∞ ) und hinreichend kleines h > 0 Es sei fh (x) := f (x) + γϕ(h−1 (x − x0 )), ϕ(h−1 •) x ∈ Rd , kϕk∞ beschränkt ist sowie eine −α Hölderkonstante Lh von der Ordnung h besitzt, liegt fh in der Klasse HD (α, L, R) für γ = γ0 hα mit γ0 > 0 hinreichend klein. Beachte, dass für wiederum eine Dichte. Da den punktweisen Abstand d durch dann gilt d(f, fh ) = |f (x0 ) − fh (x0 )| = hα γ0 ϕ(0). 49 Andererseits gilt für den Kullback-Leibler-Abstand der Verteilungen und ⊗n P von n i.i.d. Beobachtungen gemäÿ fh bzw. f P⊗n h unter Verwendung des vorigen Lemmas: ⊗n KL(P⊗n ) = n KL(Ph | P) h | P Z ϕ(h−1 (x − x0 ))2 2 6 nγ dx f (x) Rd 6 nγ 2 max f (x)−1 hd kϕk2L2 |x−x0 |∞ 6h = Wählen wir nun nh2α+d γ02 kϕk2L2 h = n−1/(2α+d) h0 −1 min f (x0 + x) . |x|∞ 6h h0 > 0 mit hinreichend klein, so ist das Minimum aus Stetigkeitsgründen echt positiv sowie der gesamte letzte Ausdruck kleiner als eins für alle δ = (2 + inf √ 2)/4 n > 1. SatzUntereSchranke2 Gemäÿ Satz 4.13 können wir also wählen und erhalten 2 2 Ef,n [|ϑ̂n −f (x0 )|2 ] > δd(f, fh )2 /5 = n−2α/(2α+d) δh2α 0 γ0 ϕ(0) /5, sup ϑ̂n f ∈HD (α,L,R) SatzMinimaxKernP was zu zeigen war. Die Optimalität der Rate ergibt sich aus Satz 2.16. I Übung Betrachten wir dieselben Alternativen, um den MISE abzuschät- zen, so erhalten wir nur eine untere Schranke der Ordnung n−1/2 , also die parametrische Rate. Da die Verlustfunktion durch Integration über ein Gebiet gegeben ist, müssen wir M >2 Alternativen auf dem gesamten Gebiet betrachten. Dafür wird folgendes Lemma aus der Informationstheorie sehr nützlich sein, das die Komplexität hochdimensionaler 0-1-Vektoren bezüglich dem sogenannten Hammingabstand abschätzt. 4.17 Lemma (Varshamov-Gilbert, 1962) . Beweis. D = bm/8c, ε(0) := (0, . . . , 0) Es sei E := {0, 1}m mit m > 8 die Menge P der m-dimensionalen 0-1-Vektoren. Führe den Hammingabstand 0 0 ρ(ε, ε ) := m i=1 1(εi 6= εi ) ein. Dann gibt es eine Teilmenge {ε(0) , . . . , ε(J) } ⊆ E vom Umfang J > 2m/8 mit ε(0) = (0, . . . , 0), so dass ρ(ε(k) , ε(`) ) > m/8 für alle k 6= ` gilt. Setze und E1 := {ε ∈ E | ρ(ε, ε(0) ) > D}. ε(1) ∈ E1 beliebig setzen für j > 2 Wähle nun ein heiÿt, wir und fahre entsprechend iterativ fort. Das Ej := {ε ∈ Ej−1 | ρ(ε, ε(j−1) ) > D} und wählen ε(j) beliebig aus bezeichne den letzten Index 06k<`6J j Ej , mit Ej nicht die leere Menge ist. J Ej 6= ∅. Nach Konstruktion gilt für alle solange die Ungleichung ρ(ε(k) , ε(`) ) > D + 1 > m/8. 50 J > 2m/8 Um j -ten nachzuweisen, analysieren wir die Kardinalität nj der im Schritt ausgeschlossenen Vektoren: (j) nj := #(Ej \ Ej+1 ) 6 #{ε ∈ E | ρ(ε, ε ) 6 D} = D X m i i=0 Nach Denition gilt (J + 1) PJ j=0 nj D X m i=0 i = #E = 2m , m >2 . so dass D X m −m 2 > (J + 1)−1 i bzw. i=0 folgt. Beachte nun, dass die linke Seite in der zweiten Darstellung die Wahrscheinlichkeit ble Sm . P(Sm 6 D) angibt für eine Bin(m, 1/2)-verteilte I Übung 2 /m P(Sm 6 D) = P(Sm − m/2 6 D − m/2) 6 2e−2(D−m/2) Wegen Zufallsvaria- Aus der Hoeding-Ungleichung folgt e−9m/32 < 2−m/3 erhalten wir 6 2e−9m/32 . J + 1 > 2m/3−1 > 2m/8 + 1 für m> 8. 4.18 Satz. Betrachte das Dichteschätzproblem für die Sobolevklasse G (s, R) := {f ∈ H s (Rd ) | f ist Dichte, kf ks 6 R} mit s ∈ N, R > 0. Für den MISE auf dem Einheitswürfel [0, 1]d gilt dann die asymptotische untere Schranke hZ i 2s/(2s+d) |ϑ̂n (x) − f (x)|2 dx > 0, lim inf n inf sup Ef,n n→∞ [0,1]d ϑ̂n f ∈G (s,R) wobei sich das Inmum über beliebige L2 ([0, 1]d )-wertige Schätzer ϑ̂n basierend auf n Beobachtungen erstreckt. Die Rate n−s/(2s+d) ist die optimale Minimaxrate für dieses Problem. 4.19 Bemerkung. Die Aussage des Satzes bleibt auch korrekt für nicht- s > 0 sowie beliebige Mengen D ⊆ Rd mit nichtleerem Innern d von D = [0, 1] . In der angegebenen Situation ist der Beweis jedoch ganzzahlige anstelle transparenter. Beweis. d = 1. kf ks < R sowie cf := inf x∈[0,1] f (x) > 0. Verwende wiederum eineRglatte (mindestens s-reguläre) Funktion ϕ : R → R mit Träger in [0, 1] und ϕ = 0, ϕ 6= 0. Für ein später speziertes m > 1 m setze für jedes ε ∈ E = {0, 1} Wir beschränken uns zunächst auf den eindimensionalen Fall Betrachte eine Dichte f ∈ H s (R) mit fε (x) = f (x) + γ m X i=1 51 εi ϕ(mx − (i − 1)). fε ist wiederum eine Dichte für γ < cf /kϕk∞ . Beachte, dass die lokalen ϕ(m• − (i − 1)) disjunkte Träger für verschiedene i besitzen. Da β 6 s gilt Jedes Störungen für Z D β m X εi ϕ(mx − (i − 1)) 2 dx 6 m X i=1 Z εi m2s ϕ(β) (mx − (i − 1))2 dx i=1 2s 6 m kϕ(β) k2L2 , kfε ks 6 R erhalten wir für γ = γ0 m−s mit betrachten nun als Alternativen die Dichten den ε(j) und J > 2m/8 aus dem Lemma von Varshamov-Gilbert. Dann gilt für den Abstand zwischen zwei Dichten Z γ0 > 0 hinreichend klein. Wir fj := fε(j) , j = 0, . . . , J , mit [0,1] Z X (fk (x) − f` (x))2 dx = γ 2 (k) fk 6= f` ϕ(mx − (i − 1))2 dx > γ 2 kϕk2L2 /8. (`) i:εi 6=εi SatzUntereSchrankeM Um Satz 4.14 anwenden zu können, schätzen wir nun den KullbackLeibler-Abstand zwischen den Dichten χ2 -Abstand fj und der Dichte Z KL(Pfj | Pf0 ) 6 (fj − f0 )2 /f0 = γ 2 m X (j) Z εi i=1 6 mittels ϕ(mx − (i − 1))2 dx f0 (x) 2 γ 2 c−1 f kϕkL2 . Damit gilt für die Verteilungen bei n i.i.d. Beobachtungen ⊗n −2s 2 −1 KL(P⊗n γ0 cf kϕk2L2 , fj | Pf0 ) 6 nm log J > m log(2)/8 Wegen f0 = f ab: ergibt die Wahl j = 1, . . . J. m = bm0 n1/(2s+1) c mit m0 > 0 hinreichend klein J 1X log(J) δ := KL(P⊗n | P⊗n )6 . f f 0 j J 8 j=1 SatzUntereSchrankeM Wenden wir nun Satz 4.14 an, so erhalten wir inf sup Ef,n [kϑ̂n − f k2L2 ] > γ 2 kϕk2L2 /65 = bm0 n1/(2s+1) c−2s γ02 kϕk2L2 /65, ϑ̂n f was es im Fall Für d>2 d = 1 zu beweisen galt. x ∈ Rd betrachte die und fε (x) = f (x) + γ m X Dichten εi ϕ(mx − (i − 1)), i1 ,...,id =1 52 i = (i1 , . . . id ), mit ε ∈ {0, 1}m d und 1 = (1, . . . , 1). Alle weiteren Abschätzungen bleid J > 2m /8 immer noch δ 6 ben gleich, wir gewinnen jedoch aus die Möglichkeit m = log(J) gilt. Dies führt 8 −2s/(2s+d) . in denselben Schritten auf die untere Schranke der Ordnung n bm0 n1/(2s+d) c zu wählen, so dass KorMinimaxKernL2 Die Optimalität ergibt sich aus Korollar 2.25, wo sogar für den MISE auf ganz Rd die obere Schranke O(n−2s/(2s+d) ) hergeleitet wurde. I Übung Für das gleichmäÿige Risiko auf [0, 1]d bei Schätzern für Dichten in α-Hölderklassen kann man die Minimaxrate (n/ log n)−α/(2α+d) nachweisen, man verliert also einen logarithmischen Faktor und muss die Regularität im Hölder- anstatt im Sobolevsinn messen. Weitere interessante Fragestellungen zum Beweis unterer Schranken werden von Tsybakov (2004) am Regressionsmodell erörtert. 5 Wahl des Glättungsparameters 5.1 Unverzerrte Risikoschätzung und Block-Stein-Schätzer Um die wesentlichen Punkte herauszuarbeiten, werden wir hier im Modell des Signals in weiÿem Rauschen arbeiten: σ dYt = f (t) dt + √ dWt , n t ∈ [0, 1]. Wie oben gesehen, erhalten wir durch Wahl einer Orthonormalbasis in L2 ([0, 1]) (ϕk )k>1 das äquivalente Folgenraummodell Z yk := 0 1 σ ϕk (t) dYt = fk + √ ζk , n k > 1, fk := hf, ϕk i und Rauschtermen ζk ∼ N (0, 1) i.i.d. Yi =Pf (i/n) + εi mit εi ∼ N (0, σ 2 ) würde man in ỹk := n1 ni=1 Yi ϕk (i/n) arbeiten. mit wahren Koezienten Im Regressionsmodell analoger Weise mit Ziel dieses Kapitels ist es, ein daten-getriebenes Glättungsverfahren zu nden, das unabhängig von der a priori-Kenntnis der Glattheit der unbe- f auskommt, was auf sogenannte adaptive Schätzer (adaptive, data-driven or unsupervised estimators) von f führt. kannten Funktion Im Weiteren werden wir uns lineare, koezientenweise Schätzer der Form fˆλ = X fˆk ϕk mit fˆk := λk yk k>1 anschauen, wobei die Folge λ = (λk )k>1 reellwertige Gewichte (oder Filter) angibt. Als mittleren quadratischen Fehler erhalten wir mit Bias-VarianzZerlegung M ISE(λ, f ) := Ef [kfˆλ − f k2L2 ] = X k>1 53 (1 − λk )2 fk2 + σ2 2 λ , n k λ ∈ `2 so dass wir voraussetzen wollen und im Allgemeinen auch λk ∈ [0, 1] betrachten werden (andere Wahlen sind oenbar suboptimal). Theoretisch Λ ⊆ `2 optimal in einer Klasse von Gewichten wäre die Wahl λOrakel := argminλ∈Λ M ISE(λ, f ). Da f Orakelwahl unbekannt ist, ist diese dem Statistiker nicht gestattet, sie dient jedoch als Vergleichskriterium für eine empirische Wahl. Eine naheliegende Idee ist es, den unbekannten Wert M ISE(λ, f ) zu schätzen. Der quadratische Verlust ist gerade kfˆλ − f k2L2 = X λ2k yk2 − 2λk yk fk + fk2 . k>1 fk2 nicht von λ ab, und wir können σ2 n erwartungstreu (unverzerrt) schätzen: Nun hängt der Summand yk2 − Ef [yk2 − σ2 n − yk fk ] = E[fk √σn ζk + Setze daher I(λ) := X σ2 2 n (ζk λ2k yk2 − 2λk (yk2 − yk fk durch − 1)] = 0. σ2 n ) , k>1 Ef [I(λ)] = M ISE(λ, f ) − kf k2L2 gilt und I(λ) ein unverzerrter Schätzer des Risikos (unbiased risk estimator) bis auf den von λ unabhängi2 gen Term kf k 2 darstellt. Wir betrachten also L so dass f˜ := fˆλ̃ . λ̃ := argminλ∈Λ I(λ), Beachte, dass λ̃ als Minimalstelle eines zufälligen Kriteriums bereits schwie- rig zu analysieren ist und dass zwischen den (yk ) und λ̃ f˜ wegen der stochastischen Abhängigkeit noch komplexer ist. 5.1 Beispiele. (a) Projektionsschätzer auf SK := span(ϕk , k = 1, . . . , K): Λproj := {λ ∈ `2 | λk = 1(k 6 K), Anstatt mit λ ∈ Λproj indizieren wir mit wir betrachten K ∈ {1, 2, . . . , Kmax }}. K die entsprechenden Gröÿen und erhalten fˆk,K := yk 1(k 6 K), K X I(K) = (yk2 − 2(yk2 − σ2 n )) 2 = 2K σn − k=1 k=1 Das Minimum von I wird angenommen bei K̃ = argmin16K6Kmax max KX k=1 54 K X 2 (yk − fˆk,K )2 + 2K σn . yk2 . K̃ damit den empirischen Verlust des Schätzers (RSS: residual sum of squares) plus einen Strafterm minimiert, der gleich zweimal der Varianz ist. Dies entspricht Mallows Cp -Krierium für die Beachte, dass Modellwahl bei linearen Modellen. (b) Endlich-dimensionales Modell: wir betrachten für bekanntes d∈N Λconst := {λ ∈ `2 | λk = t1(1 6 k 6 d), Der Einfachheit halber nehmen wir hier auch t ∈ [0, 1]}. P f = dk=1 fk ϕk an, so dass in der Tat ein endlich-dimensionales Problem vorliegt. Mit Indizierung durch fˆk,t := tyk , t ergibt sich d X I(t) = t2 yk2 − 2t(yk2 − σ2 n ) 2 = (t2 − 2t)|y|2 + 2td σn , k=1 wobei wir |x|2 := Pd 2 k=1 xk für x ∈ {y, f } setzen und im folgenden mit |f |2 = kf k2L2 ). Wir erhalten durch Vektornotation arbeiten (beachte Minimierung über t ∈ [0, 1] dσ 2 t̃ := 1 − n|y|2 + Dies liefert den sogenannten mit A+ := max(A, 0). Stein-Schätzer mit positivem Anteil dσ 2 y =: fˆS+ . f˜ = fˆt̃ = 1 − n|y|2 + Aus der mathematischen Statistik ist der entsprechende James-SteinSchätzer bekannt: (d − 2)σ 2 fˆJS+ = 1 − y. n|y|2 + Mit dem Steinschen Lemma beweist man wiederum (Tsybakov 2004, Lemma 3.10): h i ∀ d > 1 : Ef |fˆS+ − f |2 6 σ2 dσ 2 |f |2 + 4 . dσ 2 + n|f |2 n Das Überraschende ist nicht nur, dass wir eine solche Schranke konkret angeben können, sondern auch dass diese Schranke sehr nah am Orakelrisiko liegt: d h i X (1 − t)2 fk2 + min Ef |fˆt − f |2 = min t∈[0,1] t∈[0,1] k=1 55 σ2 2 n t = dσ 2 |f |2 , dσ 2 + n|f |2 2 | tOrakel := dσ2n|f ange+n|f |2 folgende Orakelungleichung für den wobei das Minimum bei der Orakelwahl nommen wird. Damit erhalten wir endlich-dimensionalen Fall: Ef [|f˜ − f |2 ] 6 min Ef [|fˆt − f |2 ] + t∈[0,1] | {z } Orakelrisiko σ2 4 n |{z} . Kosten durch Risikoschätzung Beachte, dass diese Orakelungleichung explizit (nicht-asymptotisch mit einfachen Konstanten) ist und für jedes beliebige (c) Blockweise konstante {1, 2, . . . , Kmax } = ΛBlock Gewichte: betrachte f= Pd für eine k=1 fk ϕk gilt. Partition SJ j=1 Bj J n X 2 = λ ∈ ` | λk = tj 1(k ∈ Bj ), o 0 6 tj 6 1, j = 1, . . . , J . j=1 Damit lassen sich nun recht allgemeine Gewichte approximieren (s.u.) und gleichzeitig das endlich-dimensionale Resultat aus (b) verwenden. Wir erhalten einen blockweise konstanten Koezientenschätzer PKmax ˜ k=1 fk ϕk f˜k := f˜ = mit J X λ̃(j) 1(k ∈ Bj )yk , wobei j=1 mit der Kardinalität |Bj | von Bj Block-Stein-Schätzer. und |Bj |σ 2 λ̃(j) := 1 − n|y|2(j) + |y|2(j) = P k∈Bj yk2 . Wir nennen f˜ Wie zuvor erhalten wir eine Orakelungleichung Ef [|f˜ − f |2 ] 6 2 σ min Ef [|fˆλ − f |2 ] + 4J . λ∈ΛBlock n 5.2 Lemma. Betrachte Blöcke Bj = {bj−1 + 1, . . . , bj }, j = 1, . . . , J , mit 0 = b0 < b1 < · · · < bJ = Kmax sowie ΛBlock J n X 2 = λ ∈ ` | λk = tj 1(k ∈ Bj ), o 0 6 tj 6 1, j = 1, . . . , J , j=1 Λmon n o = λ ∈ `2 | λk ∈ [0, 1], λk+1 6 λk , k > 1, λKmax = 0 . Dann gilt für alle f ∈ L2 : |Bj+1 | σ2 min M ISE(f, λ) + |B1 | . 16j6J−1 |Bj | λ∈Λmon n min M ISE(λ, f ) 6 1 ∨ max λ∈ΛBlock 56 P Beweis. Zu λ ∈ Λmon wähle λ̄ ∈ ΛBlock mit λ̄k = Jj=1 λ̄(j) 1(k ∈ Bj ) λ̄(j) := maxk∈Bj λk . Dann gilt stets λ̄k > λk und somit M ISE(λ̄, f ) = X (1 − λ̄k )2 fk2 + k>1 und σ2 2 X σ2 λ̄k 6 (1 − λk )2 fk2 + λ̄2k . n n k>1 Es genügt also, folgendes zu zeigen: KX max λ̄2k 6 Kmax |Bj+1 | X λ2k + |B1 |. 16j6J−1 |Bj | max k=1 k=1 Dies folgt durch Indexverschiebung in den Blöcken wegen λk für alle λ̄(j) = λbj−1 +1 6 k ∈ Bj−1 : KX max λ̄2k 6 |B1 | + J X |Bj |λ̄2(j) j=2 k=1 J |Bj+1 | X |Bj−1 |λ̄2(j) 16j6J−1 |Bj | 6 |B1 | + max j=2 J |Bj+1 | X X 2 λk 16j6J−1 |Bj | 6 |B1 | + max j=2 k∈Bj−1 Kmax |Bj+1 | X λ2k . 16j6J−1 |Bj | = |B1 | + max k=1 Wir erhalten also insgesamt folgendes Resultat. 5.3 Satz. Der Block-Stein-Schätzer f˜ zu den Blöcken Bj = {bj−1 + 1, . . . , bj }, j = 1, . . . , J , mit 0 = b0 < b1 < · · · < bJ = Kmax erfüllt die Orakelungleichung bezüglich monotoner Gewichte Ef [|f˜ − f |2 ] 6 |Bj+1 | σ2 min M ISE(f, λ) + (|B1 | + 4J) . 16j6J−1 |Bj | λ∈Λmon n max 5.4 Beispiele. (a) Dyadische Blöcke bj = 2j , j = 1, . . . , J , ergeben die Orakelungleichung min M ISE(λ, f ) 6 2 min M ISE(f, λ) + (2 + 4J) λ∈ΛBlock λ∈Λmon 57 σ2 . n (b) Für 1 ρ )c, schwach geometrische Blöcke mit |B1 | = bρc, |Bj+1 | = b|Bj |(1 + j = 1, . . . , J − 1, mit ρ := log(n/σ 2 ) gilt |Bj+1 | 6 (1 + ρ1 ) |Bj | sowie mit J = bρ2 c und n/σ 2 → ∞ (A ∼ B bedeute A = O(B) und B = O(A)): Kmax = J X J X |Bj | ∼ ρ (1 + ρ1 )j−1 j=1 j=1 = ρ2 (1 + ρ1 )J − 1 = ρ2 exp ρ2 log(1 + ρ1 ) − 1 n ∼ ρ2 eρ ∼ 2 log2 (n/σ 2 ). σ Dies liefert eine dass der Faktor asymptotisch exakte Orakelungleichung in dem Sinne, vor dem Orakelrisiko gerade 1 + o(1) für n → ∞ ist. Das letzte Beispiel liefert unmittelbar folgende Korollare, wobei Λmon wie in ΛBlock Kmax in gewählt sei. 5.5 Korollar. Der Block-Stein-Schätzer f˜ mit schwach geometrischen Blöcken erfüllt die für n → ∞ asymptotisch exakte Orakelungleichung bezüglich monotoner Gewichte Ef [|f˜−f |2 ] 6 1+ 5.6 Korollar. 1 σ 2 (log(n/σ 2 ) + 4 log2 (n/σ 2 )) min M ISE(f, λ)+ . log(n/σ 2 ) λ∈Λmon n Es gelte Λ ⊆ Λmon und f ∈ L2 ([0, 1]) besitze die Eigenschaft lim n→∞ minλ∈Λ M ISEn (λ, f ) σ2 n log2 (n/σ 2 ) = ∞. Dann folgt für den Block-Stein-Schätzer f˜n mit schwach geometrischen Blöcken Ef [kf˜n − f k2L2 ] 6 1. lim sup n→∞ minλ∈Λ M ISEn (λ, f ) Im Kontext der nichtparametrischen Schätzung unter Regularitätsannahmen an f folgt, dass der Block-Stein-Schätzer in der Tat ein adaptiver Schät- zer ist, der die Minimaxraten für Glattheit von s s > 0 erreicht, ohne die Kenntnis vorauszusetzen. Exemplarisch betrachten wir dazu die Familie der periodischen Sobolevräume auf SK DefSobraum01 s ([0, 1]), s > 0, aus Denition 3.38. Die Projektionsschätzer fˆ Hper n,K = span(ϕk , |k| 6 K) mit der Fourierbasis (ϕk )k>1 besitzen dann 58 s mit kf k 6 L, und die ratenoptiLK −s für f ∈ Hper s 2 1/(2s+1) 2 −2s/(2s+1) mit eimale Wahl Ks ∼ (n/σ ) liefert den MISE Cs,L (n/σ ) ner Konstanten Cs,L > 0, was auch unter periodischen Randbedingungen die optimale Minimaxrate darstellt. Die Fourierbasis wird mit k ∈ Z indiziert, 0 aber alle Resultate bleiben sinngemäÿ erhalten , wenn die Indizes k, k ∈ Z 0 gemäÿ |k| 6 |k | geordnet werden. Beachte nun Λproj ⊆ Λmon sowie, dass für jedes s > 0 der Dimensionsparameter Ks von kleinerer Gröÿenordnung σ2 2 ist als n/σ und die Minimaxrate polynomiell langsamer als n abklingt. einen Bias kleiner als Daher folgt aus den bisherigen Ergebnissen, dass der Block-Stein-Schätzer 2J = Kmax > n/σ 2 oder bei obigen schwach geometrischen Blöcken ein an die gesamte Familie s ([0, 1])) (Hper s>0 bei dyadischen Blöcken mit der Wahl adaptiver ratenoptimaler Schätzer ist. 5.7 Satz. Der Block-Stein-Schätzer f˜n bezüglich der Fourierbasis mit dyadischen Blöcken und J = dlog2 (n/σ 2 )e oder mit schwach geometrischen Blös ([0, 1])) cken ist adaptiv an die gesamte Familie (Hper s>0 für n → ∞: s ∀s > 0, ∀f ∈ Hper ([0, 1]) : Ef [kf˜n − f k2L2 ] = O(n−2s/(2s+1) ). 5.8 Bemerkung. Die Konstante auf der rechten Seite hängt von ab und ist je nach Wahl der Blöcke durch 2Cs,kf ks bzw. Cs,kf ks s und kf ks beschränkt. Da monotone Gewichte viel allgemeiner sind als Projektionsgewichte, ist die Konstante sogar bedeutend kleiner. In der Tat wird mit schwach geometrischen Blöcken sogar die asymptotisch minimax-optimale Konstante über kf ks erreicht: ∀s, L > 0 : lim sup Ef [kf˜n − f k2L2 ](n/σ 2 )2s/(2s+1) = Ps,L , n→∞ kf k 6L s wobei Ps,L = (L2 (2s + 1))1/(2s+1) s s+1 2s/(2s+1) Pinskerkonstante heiÿt und diese optimal im Minimaxsinn ist, siehe Tsybakov (2004) für Details zum Pinskerschätzer und exakten Minimaxkonstanten. Auf die Übertragung der Ergebnisse vom Modell des Signals im weiÿen Rauschen auf das Regressions- oder Dichteschätzproblem verzichten wir hier. I Übung Im Regressionsmodell ist der Ansatz jedoch direkt zu übertragen, allerdings sind die Resultate wegen der Abhängigkeit vom Design komplexer. 5.2 Bandweitenwahl durch Kreuzvalidierung Wir haben gesehen, dass die optimale Wahl der Bandweite eines Kernschät- Eqhast zers im Sinne der Risikominimierung in (2.1) nicht möglich ist, da das Risiko von der unbekannten, zu schätzenden Funktion abhängt. Ein natürlicher statistischer Zugang ist daher, das Risiko selbst zu schätzen und dann eine (datengetriebene) Bandweite zu wählen, die das geschätzte Risiko minimiert. Kreuzvalidierung (cross validation) 59 bietet eine einfache und eektive Möglichkeit, den MISE unverzerrt zu schätzen (sogenannte estimation). unbiased risk Wir werden uns hier auf das Dichteschätzproblem und Kern- dichteschätzer konzentrieren. (ISE: integrated square error) bei fˆn,h von f in Abhängigkeit von der Bandweite h > 0: Z ISEn (h) := (fˆn,h (x) − f (x))2 dx d R Z Z Z 2 ˆ ˆ f (x)2 dx. fn,h (x)f (x) dx + fn,h (x) dx − 2 = L2 (Rd ) Betrachte den Verlust in der Kernschätzung Rd Rd Rd ISEn (h) eine zufällige Gröÿe ist, deren Erwartungswert geM ISEn (h) := MISERd (fˆn,h , f ) ist. Jedes (zufällige) ĥ, das ISEn (h) ∗ minimiert, führt sogar zu einem besseren MISE als hn , der Minimierer von M ISEn (h) (klar?). Nun hängt ISEn (h) immer noch von der unbekannten Dichte f ab. Der letzte Summand ist jedoch unabhängig von h und spielt somit beim Minimieren keine Rolle. Weil fˆn,h bekannt ist, müssen wir also Beachte, dass rade nur den zweiten Summanden Z In (h) := Rd fˆn,h (x)f (x) dx = Ef [fˆn,h (X)] schätzen (dabei wird die Erwartung nur bezüglich hängigen Zufallsvariable, die wie Xi X genommen, einer unab- verteilt ist). Der erste natürliche Ansatz ist, den Erwartungswert durch das arithmetische Mittel zu ersetzen: n ? 1 X Ef [fˆn,h (Xi )] ≈ fˆn,h (Xi ). n i=1 Dies ist jedoch kritisch, weil fˆn,h ja selbst zufällig und abhängig von den Xi ist. Beachte, dass deshalb bereits die Erwartungswerte beider Seiten nicht übereinstimmen dürften.I Übung Ein solches Kriterium führt zum starken Unterglätten, weil nur der Fehler in der Stichprobe selbst (in-sample performance), was naturgemäÿ für Dichten nahe verringert wird am empirischen Maÿ der Fall ist. Eine Möglichkeit, diese Abhängigkeiten zu vermeiden, ist es, die Stichpro- (X1 , . . . , Xn ) in eine Trainingsmenge (training set) (X1 , . . . , Xm ), m < n, und eine Validierungsmenge (validation set) (Xm+1 , . . . , Xn ) aufzuspalten (sample splitting). Man betrachtet nur Kerndichteschätzer fˆm,h basierend be auf den Trainingsdaten und bestimmt dessen Güte für verschiedene Bandweiten h anhand der Validierungsmenge. Im vorliegenden Fall würde man also die Approximation ? Ef [fˆm,h (X)] ≈ n X 1 fˆm,h (Xi ) n−m i=m+1 60 anstreben. Nach dem Gesetz der groÿen Zahlen ist die Approximation für n−m → ∞ konsistent. Ein oensichtlicher Nachteil dieses Verfahrens ist jedoch, dass wir nur Gröÿe n−m m < n Daten für die Schätzung verwenden und die der Testmenge für eine gute Approximation hinreichend groÿ sein muss. Trotzdem liefert dieser Ansatz häug gute Resultate. Kreuzvalidierung (cross validation) beruht auf einer Verfeinerung der j = 1, . . . , n führen wir die sogenann- Idee der Stichprobenaufspaltung. Für ten leave-one-out-Schätzer ein: (−j) fˆn,h (x) := 1 X Kh (x − Xi ). n−1 i6=j (−j) fˆn,h ist also der gewöhnliche Kernschätzer, aber basierend auf den Daten {X1 , . . . , Xn }\{Xj }. Wir werden die Kreuzvalidierungsbandweite Der Schätzer als Minimierer folgenden CV-Kriteriums gewinnen: Z CVn (h) := Rd n fˆn,h (x)2 dx − 2Iˆn (h) mit 1 X ˆ(−j) fn,h (Xj ). Iˆn (h) := n j=1 h ∈ R+ Teilmengen Hn ⊆ Da in Theorie und Praxis eine Minimierung über alle Bandweite schwierig ist, beschränken wir uns zunächst auf endliche R+ , die von n abhängen dürfen und später speziziert werden, und denieren ĥn := argminh∈Hn CVn (h), hn := argminh∈Hn M ISEn (h). Der adaptive Kernschätzer basierend auf Kreuzvalidierung ist dann fˆn (x) := fˆn,ĥn (x). Mit CVn (h) wird der MISE bis auf den unerheblichen Term R f2 unver- zerrt geschätzt: Z (−i) Ef [CVn (h)] = Ef [fˆn,h (x)2 ] dx − 2 Ef [fˆn,h (Xi )] d R Z 1 = Kh ∗ f (x)2 + Kh2 ∗ f (x) − Kh ∗ f (x)2 − 2Kh ∗ f (x)f (x) dx. n Rd ĥn nahe bei hn liegt, zumindest asymptotisch für n → ∞. Ebenso sollte die Diskretisierung in Hn hinreichend fein sein, dass hn und h∗n asymptotisch zum selben Fehler führen. Ziel dieses Abschnitts Daher erwarten wir, dass ist folgender beeindruckende Satz von Stone (1984), dass Kreuzvalidierung asymptotisch für n → ∞ zu demselben Fehler führt wie die optimale Orakel- ∗ Bandweite hn , vergleiche auch die genauere Analyse in Hall and Marron (1987). 61 SatzCV 5.9 Satz. Es sei K ∈ L1 (Rd ) eine beschränkte Kernfunktion mit gleichmäÿig Lipschitz-stetiger Fouriertransformierter: ∃L > 0 ∀u, u0 ∈ Rd : |FK(u) − FK(u0 )| 6 L|u − u0 |. Die Bandweitenmenge bei n Beobachtungen sei von der Form Hn = {kn−d−1 | k ∈ N, n−1/d 6 kn−d−1 6 (log n)−12/d }. Sofern die Dichtefunktion f in einem Sobolevraum H s (Rd ) für irgendein s > 0 liegt, gilt für den kreuzvalidierten Kerndichteschätzer fˆn von f kfˆn − f k2L2 lim = 1 (stochastisch). n→∞ inf h>0 M ISEn (h) Der Verlust von fˆn ist also asymptotisch nicht gröÿer als der Orakelfehler. 5.10 Bemerkung. Die exakte Form der Bandweitenmenge Hn ist relativ unerheblich. Wir werden im Beweis im wesentlichen nur verwenden, dass min Hn 6 h∗n 6 max Hn mit Orakelbandweite h∗n ∼ n−1/(2s+d) für alle s > 0 gilt, max Hn logarithmisch fällt, die Diskretisierung hinreichend fein ist sowie die Kardinalität von Hn maximal polynomiell in n wächst. Die Forderungen an den Kern sind recht schwach. Jeder Kern mit integrierbarer, gleichmäÿig Lipschitz-stetiger Fouriertransformierter erfüllt sie (Riemann-Lebesgue-Lemma). Insbesondere werden sie auch vom Rechteckkern erfüllt, dessen Fouriertransformierte in Lp (R) für p > 1, jedoch nicht in L1 (R) liegt. I Übung Im Beweis wird man sehen, dass die Lipschitzstetigkeit von FK sogar durch eine schwächere Hölderstetigkeit ersetzt werden kann, wenn man Hn gegebenenfalls etwas feiner wählt. d d 2 s Man kann Funktionen f ∈ L (R ) konstruieren, die in keinem H (R ) liegen. Dies sind aber sehr artizielle, äuÿerst irreguläre Funktionen, die in praxi nicht vorkommen dürften. Darüberhinaus zeigt der Beweis, dass wir gegen Null konverh∗n logarithmisch R giert, so dass sogar eine Bedingung der Form log(1 + |u|)σ |Ff (u)|2 du < ∞ mit σ > 0 geeignet ausreicht. nur benötigen, dass die Orakelbandweite ĥn , M ISEn (•) Der Beweis des Satzes ist relativ aufwändig. Der Abstand zwischen hn und h∗n sollte sinnvollerweise mit den zugehörigen Risiken gemessen werden. Man mache sich dabei klar, dass und nicht(!) den Fehler des adaptiven Kernschätzers M ISEn (ĥn ) zufällig ist fˆn angibt. Wir beweisen zunächst einige Lemmata. LemmaMISEConv 5.11 Lemma. Die stochastische Konvergenz M ISEn (ĥn )/M ISEn (hn ) → 1 für n → ∞ folgt aus den beiden Konvergenzen |ISEn (h) − M ISEn (h)| max → 0 (stochastisch), h∈Hn M ISEn (h) ! |(Iˆn (h) − Iˆn (hn )) − (In (h) − In (hn ))| max → 0 (stochastisch). h∈Hn M ISEn (h) 62 Beweis. Nach Denition gilt stets M ISEn (ĥn ) > M ISEn (hn ) CVn (ĥn ) 6 CVn (hn ). Daher erhalten wir CVn (ĥn ) − CVn (hn ) + M ISEn (hn ) − M ISE(ĥn ) M ISEn (ĥn ) 6 M ISEn (hn ) M ISEn (ĥn ) sowie − 1 6 0. Die Behauptung folgt nun aus der Abschätzung: CVn (ĥn ) − CVn (hn ) + M ISEn (hn ) − M ISEn (ĥn ) M ISEn (ĥn ) = ISEn (ĥn ) − M ISEn (ĥn ) M ISEn (ĥn ) +2 >− Iˆn (hn ) − In (hn ) M ISEn (ĥn ) −2 − ISEn (hn ) − M ISEn (hn ) Iˆn (ĥn ) − In (ĥn ) M ISEn (ĥn ) |ISEn (ĥn ) − M ISEn (ĥn )| −2 M ISEn (ĥn ) − |ISEn (hn ) − M ISEn (hn )| M ISEn (hn ) M ISEn (ĥn ) |(Iˆn (ĥn ) − Iˆn (hn )) − (In (ĥn ) − In (hn ))| > −2 max h∈Hn − 2 max M ISEn (ĥn ) |ISEn (h) − M ISEn (h)| M ISEn (h) ! |(Iˆn (h) − Iˆn (hn )) − (In (h) − In (hn ))| M ISEn (h) h∈Hn Wir weisen zunächst für jedes h . (5.1) die Konzentration der jeweiligen Terme um ihren Erwartungswert nach und betrachten danach die Maxima. LemmaISEMISE 5.12 Lemma. Es gibt eine Konstante c > 0, die nur vom Kern K und der Dichte f abhängt, so dass für alle n > 1, h > 0, κ > M ISEn (h)(hd/4 +n−1/2 ) gilt P(|ISEn (h) − M ISEn (h)| > κ) 2/3 6 (6n + 4) exp − c κ/ M ISEn (h)(hd/4 + n−1/2 ) . 5.13 Bemerkung. Die Gröÿenordnungen in der Abschätzung des Lemmas sind nicht optimal. Für uns wesentlich ist bloÿ eine Exponentialungleichung von kleinerer Gröÿenordnung als Beweis. M ISEn (h). Beachte bei folgenden Rechnungen, dass M ISEn (h) von unten so- wohl durch den quadrierten Bias als auch durch den Varianzterm beschränkt 63 EqCVMISE ist, der die Ordnung l = 1, . . . , n, n−1 h−d besitzt. Wir setzen und verwenden, dass (ψl (u)) ψl (u) := eihu,Xl i − ϕ(u), i.i.d. sind mit E[ψl (u)] = 0, a(u, v) := E[ψl (u)ψl (v)] = ϕ(u − v) − ϕ(u)ϕ(−v) R 2 2 d 2 sowie supv |a(u, v)| du 6 4kϕk 2 = 4(2π) kf k 2 . Auÿerdem schreiben wir L L ci , i > 0, für positive Konstanten, die nur von der Kernfunktion K und EqFRisk der Dichte f abhängen. Im Spektralbereich benutzen wir die Darstellung (2.2) und erhalten mittels Fubini ISEn (h) − M ISEn (h) Z −d |FK(hu)ϕ̂n (u) − ϕ(u)|2 − E[|FK(hu)ϕ̂n (u) − ϕ(u)|2 ] du = (2π) d ZR |FK(hu)|2 |ϕ̂n (u) − ϕ(u)|2 − E[|ϕ̂n (u) − ϕ(u)|2 ] = (2π)−d d R + 2 Re (|FK(hu)|2 − FK(hu))ϕ(−u)(ϕ̂n (u) − ϕ(u)) du Z n k−1 2|FK(hu)|2 X X −d = (2π) Re(ψk (u)ψl (u)) n2 Rd k=2 l=1 + |FK(hu)|2 n2 n X 1 − 2 Re(ϕ(u)e−ihu,Xk i ) + |ϕ(u)|2 − (1 − |ϕ(u)|2 ) k=1 + 2 Re (|FK(hu)|2 − FK(hu))ϕ(−u)(ϕ̂n (u) − ϕ(u)) du k−1 n Z X (2π)−d X 2 |FK(hu)| Re(ψk (u)ψl (−u)) du =2 d n2 l=1 k=2 R n Z (2π)−d X −2 |FK(hu)|2 Re(ϕ(u)ψk (−u)) du d n2 k=1 R n Z −d (2π) X Re (|FK(hu)|2 − FK(hu))ϕ(−u)(ϕ̂n (u) − ϕ(u)) du +2 n Rd k=1 =: S1 + S2 + S3 . Für den zweiten Summanden S2 verwenden wir direkt die Hoeding- Ungleichung. Aus −d −2 2(2π) Z n Rd |FK(hu)|2 |ϕ(u)||ψk (−u)| du 6 4n−2 h−d kKk2L2 folgt P(|S2 | > κ2 ) 6 2 exp(−κ22 /32n−3 h−2d kKk4L2 ), Beim dritten Summanden S3 verwenden 64 wir die κ2 > 0. klassische (5.2) Bernstein- EqS2 Ungleichung. Die Cauchy-Schwarz-Ungleichung liefert Z (2π)−d Re (|FK(hu)|2 − FK(hu))ϕ(−u)ψk (u) du 2 n Rd Z 1/2 1/2 Z −d (2π) 2 2 62 4|FK(hu)|2 du |FK(hu) − 1| |ϕ(u)| du n Rd Rd 4 6 h−d/2 BIASn (h)kKkL2 , (5.3) n R −d 2 2 1/2 den Biasterm wobei BIASn (h) = ((2π) Rd |FK(hu) − 1| |ϕ(u)| du) EqS3R bezeichnet. Ferner gilt Z Re (|FK(hu)|2 − FK(hu))ϕ(−u)ψk (u) du Var 2(2π)−d d Z RZ ||FK(hu)|2 − FK(hu)||ϕ(u)|• 6 4(2π)−2d Rd Rd 2 •||FK(hv)| 6 4(2π)−2d kKkL1 Z Rd − FK(−hv)||ϕ(−v)||a(u, v)| du dv Z 1/2 BIASn (h) |FK(hu)|2 |a(u, v)|2 du • Rd •|FK(−hv) − 1||ϕ(−v)| dv 1/2 Z Z −2d 2 |FK(hu)|2 |a(u, v)|2 dv du 6 4(2π) BIASn (h) kKkL1 Rd Rd 2 −d/2 6 8BIASn (h) h Also erhalten wir für 2 exp kKkL1 kKkL2 kf kL2 . P(|S3 | > κ3 ) (5.4) EqS3Var die obere Schranke −κ23 /4 8n−1 h−d/2 BIASn (h)2 kKkL1 kKkL2 kf kL2 + 4κ3 n−1 h−d/2 BIASn (h)kKkL2 κ3 > 0. Mit einer Konstanten c0 > 0 und einer Abschätzung 2 2 d/4 M ISE (h) zu der Form 2AB 6 A + B vereinfacht sich dies für κ3 > h n P(|S3 | > κ3 ) 6 2 exp − c0 κ3 / hd/4 M ISEn (h) + n−1/2 M ISEn (h) . für beliebiges (5.5) Zur Abschätzung des ersten Summanden −d Un := (2π) n Z X k=2 |FK(hu)|2 k−1 X Rd S1 führen wir die Notation Re ψk (u)ψl (−u) du (5.6) l=1 U-Statistik und wir folgen nun Ideen von Houdré Fn := σ(X1 , . . . , Xn ) ist Un , n > 1, ein Martingal (setze U1 := 0); denn Un ist Fn -messbar und n Z X E[Un+1 −Un | Fn ] = (2π)−d |FK(hu)|2 Re E[ψn+1 (u)]ψl (−u) du = 0. ein (Un ist eine sogenannte and Reynaud-Bouret (2003)). Bezüglich der Filtration l=1 Rd 65 EqS3 EqUn Auÿerdem gilt |Un+1 −Un | 6 (2π) −d n Z X Rd l=1 |FK(hu)|2 |ψn+1 (u)||ψl (−u)| du 6 4nh−d kKk2L2 . Un ist, wie wir sehen werden, von der Ordnung Un eine Konzentrationsungleichung von dieser Gröÿenordnung erfüllt. Die Hoeding-Ungleichung angewendet auf Un liefert 3/2 h−d (wir braujedoch eine suboptimale Abschätzung von der Ordnung n 2 −d chen o(n M ISEn ), z.B. o(nh )). Beachte, dass wir bereits für |Un+1 − Un | Die Standardabweichung von nh−d/2 und wir erwarten, dass eine viel bessere Konzentration mit der Hoeding-Ungleichung für die Dierenz, bedingt auf Xn+1 = x erreichen: P(|Un+1 −Un | > ρ | Xn+1 = x) 6 2 exp −ρ2 /(2nh−2d kKk4L2 4kei•x −ϕk2∞ ) . Dies impliziert P(|Un+1 −Un | > ρ) = E[P(|Un+1 −Un | > ρ | Xn+1 )] 6 2 exp −ρ2 . 32nh−2d kKk4L2 (5.7) Wir streben daher an, die Bernstein-Ungleichung auf das Martingal (Un ) Un . Wir |FK(−hv)| = anzuwenden, und bestimmen dazu die quadratische Variation von benutzen Re(w) Re(z) = Re(wz + wz̄)/2 |FK(hv)| und erhalten: für w, z ∈ C sowie hU in+1 − hU in = E[(Un+1 − Un )2 | Fn ] n Z h X 2 i = (2π)−2d E |FK(hu)|2 Re(ψn+1 (u)ψl (−u)) du Fn l=1 = (2π)−2d n Z X Rd Z d l,l0 =1 R R |FK(hu)|2 |FK(hv)|2 d Re ψl (−u) a(u, −v)ψl0 (−v) + a(u, v)ψl0 (v) du dv Z n Z X −2d = (2π) |FK(hu)|2 |FK(hv)|2 a(u, v)ψl (−u)ψl0 (v) du dv 1 2 d l,l0 =1 R Rd a(u, v)g(u)g(v) du dv > 0 für alle g ∈ L1 (Rd ) (folgt aus a(u, v) = RR E[ψl (u)ψl (v)]) ist (g, h) 7→ a(u, v)h(u)g(v) du dv eine positiv-denite BiWegen RR linearform (Skalarprodukt), und Dualität ergibt eine Darstellung der Norm 66 EqUnHoeffding als Supremum über lineare Skalarprodukte: hU in+1 − hU in RR P 2 a(u, −v)|FK(hu)|2 nl=1 ψl (v) dv g(u) du −d = sup (2π) 1/2 RR a(u, v)g(u)g(v) du dv g∈L1 ∩L2 (Rd ),g6=0 n X 2 (g) = sup Xl g∈G l=1 L2 (Rd )-Topologie dichten Teilmenge G von {g ∈ a(u, v)g(u)g(v) du dv = 1} (der L2 ist separabel) sowie für jedes mit einer abzählbaren in der L1 ∩L2 : g ∈ G unabhängigen Zufallsvariablen Z Z (g) Xl := (2π)−d a(u, v)|FK(hv)|2 ψl (v)g(u) dv du, RR Setzen wir noch Rd Rd (g) := Sn l = 1, · · · , n. (g) l=1 Xl , so liefert die Talagrand-Ungleichung Pn ε=1 h i P sup|Sn(g) | > 2 E sup|Sn(g) | + c1 σβ + c2 Rβ 2 6 exp(−β 2 /2), (angewendet auf Real- und Imaginärteil) für g∈G mit Konstanten c1 , c2 > 0. Mit der Abschätzung max σ 2 , E[sup|Sn(g) |]2 6 E[sup|Sn(g) |2 ], g∈G g∈G sowie β > 0, g∈G (A + B)2 6 2(A2 + B 2 ) erhalten wir für alle β>0 P hU in −hU in−1 > 2(2+c1 β)2 E[hU in −hU in−1 ]+2c22 R2 β 4 6 exp(−β 2 /2). Wir berechnen −2d E[hU in − hU in−1 ] = (2π) 6 Z Z Rd Rd nh−d kKk2L2 kKk2L1 kf k2L2 , R2 6 (2π)−2d 4 Z Z d R −3d/2 6 8h P hU in − hU in−1 (5.8) EqUnTalagrand1 |FK(hu)|2 |FK(hv)|2 |a(u, v)| du dv d R 3 kKkL2 kKkL1 kf kL2 β>1 > c3 β 2 nh−d + c4 β 4 h−3d/2 6 exp(−β 2 /2). und schlieÿen mit neuen Konstanten |FK(hu)|2 |FK(hv)|2 |a(u, v)|2 du dv n c3 , c4 > 0 67 für (5.9) EqUnTalagrand2 Eine grobe Abschätzung liefert für mit β̄ = n(c3 β 2 nh−d + c4 β 4 h−3d/2 ) schlieÿlich c5 > 0 1/2 P hU in > β̄ 6 n exp −c5 β̄/(n2 h−d +nh−3d/2 ) , β̄ > n2 h−d +nh−3d/2 . (5.10) EqVarUn (Un ) impliziert daher 1/2 P(|Un | > κ̄) 6 n exp − c5 β̄/(n2 h−d + nh−3d/2 ) κ̄2 + 2n exp − ρ2 /(32nh−2d kKk4L2 ) + 2 exp − . 4(β̄ + κ̄ρ) Die Bernstein-Ungleichung für das Martingal Wähle Werte β̄ = κ̄ρ sowie ρ = κ̄1/3 (n2 h−d + nh−2d )1/3 und betrachte nur κ̄ > ρ. Dann folgt mit einer Konstanten c6 > 0 1/3 P(|Un | > κ) 6 (4n + 2) exp − c6 κ̄2/3 / n2 h−d + nh−2d . S1 = 2Un /n2 mit einer Konstanten c7 > 0 2/3 P(|S1 | > κ1 ) 6 6n exp − c7 κ1 /(n−1 h−d/2 + n−3/2 h−d ) . noch Es folgt schlieÿlich für EqS1 (5.11) EqS2 EqS1 EqS3 Die Behauptung folgt durch Addition der Abschätzungen (5.11), (5.2), (5.5) für KorISEMISE S1 , S2 , S3 mit κi = κ/3 und Zusammenfassen der Terme. 5.14 Korollar. Für die angegebene Bandweitenmenge Hn gilt mit stochastischer Konvergenz lim max n→∞ h∈Hn Beweis. ε>0 |ISEn (h) − M ISEn (h)| = 0. M ISEn (h) Nach der allgemeinen Abschätzung ( EqMaxExp LemmaISEMISE ??) folgt aus Lemma 5.12 für |ISEn (h) − M ISEn (h)| >ε h∈Hn M ISEn (h) X 2/3 6 10n exp − c ε/(hd/4 + n−1/2 ) P max h∈Hn 2/3 6 10|Hn |n exp − c ε/((max Hn )d/4 + n−1/2 ) . (max Hn )d/4 = (log n)−3 sowie |Hn | 6 nd+1 folgt die 2 Ordnung (log n) im Exponential und damit die stochastische Konvergenz Aus den Eigenschaften gegen Null. Unter der Voraussetzung, dass der Kern beschränkt ist, erhalten wir EqCVMISE eine analoge Abschätzung für den zweiten Term in der Zerlegung (5.1). Beachte, dass sich die Abschätzungen im Beweis stark vereinfachen, falls FK ∈ L1 (Rd ) gilt, was aber beispielsweise den Rechteckkern ausschlieÿen würde. 68 LemmahatIn 5.15 Lemma. Die Kernfunktion K ∈ L1 (Rd ) sei beschränkt. Dann gibt es eine Konstante c > 0, die nur vom Kern K und der Dichte f abhängt, so dass für alle n > 1, h > 0, κ > M ISEn (h)(hd/4 + n−1/2 ) gilt P(|(Iˆn (h) − Iˆn (hn )) − (In (h) − In (hn ))| > κ) 2/3 6 (6n + 2) exp − c κ/ (hd/4 + n−1/2 )M ISEn (h) + hd/4 . n M ISEn (hn ) Beweis. Wiederum gehen wir in den Spektralbereich über und benutzen die ψl (u) = eiuXl − ϕ(u) Funktion sowie ∆Kh := Kh − Khn . Wir erhalten die Darstellung: n 1 X ˆ(−k) ˆ(−k) Iˆn (h) − Iˆn (hn ) = (fn,h − fn,hn )(Xk ) n k=1 Z n 1X (−k) (−k) (2π)−d F(fˆn,h − fˆn,hn )(u)e−iuXk du = d n R k=1 Z n XX 1 = (2π)−d F∆Kh (u)eiuXl e−iuXk du. d n(n − 1) R k=1 l6=k Beachte, dass diese Identität im Allgemeinen nur fast sicher gilt, weil in L2 (Rd ) (−k) fˆn,h nur fast überall festgelegt ist. Wir schlieÿen: (Iˆn (h) − Iˆn (hn )) − (In (h) − In (hn )) Z n X X 1 −d F∆Kh (u)(eiu(Xl −Xk ) − ϕ(u)ϕ(−u)) du = (2π) n(n − 1) Rd k=1 l6=k Z n X k−1 X 2 −d = (2π) Re F∆Kh (u)ψl (u)ψk (−u) du n(n − 1) Rd k=2 l=1 Z n 2X (2π)−d Re F∆Kh (u)ϕ(u)ψk (−u) du + n Rd k=1 =: T1 + T2 . Bei genauerem Hinsehen stellt man fest, dass der Term wie der Term S1 im vorigen Beweis hat sowie T2 T1 dieselbe Struktur dieselbe Struktur wie S3 . Allerdings erscheinen die Fouriertransformierten des Kerns in anderer Weise. Zur Behandlung von T2 setzen wir B := {w ∈ Rd | |FK(w)| > 1/2} |1 − FK(w)| > 1/2 für w ∈ B gilt. Wegen FK ∈ L2 (Rd ) EqS3R Lebesguemaÿ λ(B) von B endlich. In Analogie zu (5.3) erhalten wir und bemerken, dass ist das 69 mit der Cauchy-Schwarz-Ungleichung Z 2 −d |F∆Kh (u)||ϕ(u)||ψk (−u)| du (2π) n Rd Z 1/2 4 λ(h−1 B)1/2 6 (2π)−d |F∆Kh (u)|2 |ϕ(u)|2 du n −1 h B 1/2 1/2 Z Z 2 |ϕ(u)|2 du |F∆Kh (u)| du + Rd \h−1 B Rd \h−1 B 6 4 (2π)−d/2 n 2BIASn (h)2 + 2BIASn (hn )2 + kKkL2 (2h−d/2 + 2h−d/2 )2BIASn (h) . n 1/2 h−d/2 λ(B)1/2 M ISEn (h) > M ISEn (hn ) erhalten wir mit einer Konstanten c1 > 0 Z 2 −d (2π) |F∆Kh (u)||ϕ(u)||ψk (−u)| du 6 c1 n−1/2 M ISEn (h). n Rd Wegen EqS3Var Mit entsprechenden Abschätzungen folgt wie in (5.4) für ein Var 2(2π) −d Z Rd c2 > 0 |F∆Kh (u)||ϕ(u)||ψk (−u)| du 6 c2 n1/2 M ISEn (h)2 . Die Bernstein-Ungleichung liefert demnach P(|T2 | > κ2 ) 6 2 exp − κ22 / 4(c2 M ISEn (h) + c1 κ2 )n−1/2 M ISEn (h) . Zur Behandlung von T1 setzt man wie im vorigen Beweis Z n X k−1 X −d Un := (2π) = k=2 l=1 n X k−1 X Rd Re F∆Kh (u)ψl (u)ψk (−u) du ∆Kh (Xl − Xk ) − Ef [∆Kh (Xl − Xk ) | Xl ] k=2 l=1 − Ef [∆Kh (Xl − Xk ) | Xk ] + Ef [∆Kh (Xl − Xk )] . −d ordnung h + R F∆Kh (u)ψl (u)ψk (−u) du ist gleichmäÿig von der Gröÿen−d hn , wie sofort aus der Darstellung im Ortsbereich und der EqUnHoeffding Jeder Summand Beschränktheit von K folgt. Wie in (5.7) liefert die Hoeding-Ungleichung ei- ne exponentielle Abschätzung von |Un+1 −Un | der Ordnung n1/2 (h−d +h−d n ). Vollkommen analog wendet man die Talagrand-Ungleichung auf die ent- n(h−d + h−d n ) für Schranke R in der sprechende quadratische Form an mit der Gröÿenordnung E[hU in+1 − hU in ], EqUnTalagrand1 vergleiche (5.8). Für die gleichmäÿige Talagrand-Ungleichung schätzen wir teilweise im Fourier- und teilweise im 70 Ortsbereich ab: (2π) Z −2d Rd Z F∆Kh (u)F∆Kh (−v)ψl (u)ψl (−v)a(u, v) du dv Rd 2 Z F∆Kh (u)ϕ(u) du 6 (2π)−2d 2 d R Z F∆Kh (u)ψl (u)(F∆Kh ψl ∗ ϕ)(u) du + d R Z 2 −d −d 2 (∆Kh ∗ (δXl − f ))(x)2 f (x) dx 6 8(h + hn )kKkL2 kf kL2 + Rd 2 2 6 8(h−d + h−d n )kKkL2 kf kL2 + k∆Kh k∞ k∆Kh ∗ (δXl − f )kL2 kf kL2 2 6 8(h−d + h−d n )kf kL2 kKkL2 kf kL2 + kKk∞ (h−d/2 + h−d/2 )kKkL2 + kf kL2 + BIASn (h) + BIASn (hn ) . n Diese Abschätzung zeigt, dass R2 EqUnTalagrand2 von der Ordnung −3d/2 O(h−3d/2 + hn ) ist, vergleiche auch (5.9). Da sich die Gröÿenordnungen der Abschätzungen nicht geändert haben, erhalten wir für T1 EqS1 die gleiche Abschätzung wie (5.11): 2/3 −3/2 −d −d P(|T1 | > κ1 ) 6 6n exp −c3 κ1 /(n−1 (h−d/2 +h−d/2 )+n (h +h )) , n n −d/2 c3 > 0 eine Konstante ist und κ1 > n−1 (h−d/2 + hn ) + n−3/2 (h−d + −d hn ) beliebig ist. Es bleibt, die Abschätzungen für T1 und T2 zusammenzuwobei addieren und zu vereinfachen. SatzCV Beweis von Satz 5.9. Zunächst weisen LemmaMISEConv wir M ISEn (ĥn )/M ISEn (hn ) → 1 nach. Gemäÿ Lemma 5.11 reicht es dazu, die stochastische Konvergenz der EqCVMISE KorISEMISE LemmahatIn beiden Maxima in (5.1) gegen Null zu zeigen. In Korollar 5.14 ist die Kon- vergenz des ersten Maximums bereits erbracht worden. Da Lemma 5.15 die gleichen Abschätzungen liefert, wenn man hn ∈ Hn beachtet, erhalten wir vollkommen analog auch die Konvergenz des zweiten Maximums gegen Null. Wie bereits angemerkt, ist KorISEMISE M ISE(ĥn ) nicht der Fehler von fˆn . Das Ko- rollar 5.14 liefert aber gerade stochastische Konvergenz lim max n→∞ h∈Hn Zusammen mit M ISEn (ĥn )/M ISEn (hn ) → 1 lim n→∞ oder äquivalent |ISEn (h) − M ISEn (h)| = 0. M ISEn (h) folgt daher |ISEn (ĥn ) − M ISEn (hn )| =0 M ISEn (hn ) ISEn (ĥn )/M ISEn (hn ) → 1 71 (stochastisch) (stochastisch). (5.12) EqKonvhathn Es bleibt, die Abweichung von liche Orakelrisiko M ISEn (h∗n ) M ISEn (hn ) in Bezug auf das eigent- Hn be−1/d n zu betrachten brauchen, weil zu ermitteln. Bei der Wahl von h > M ISEn (h) nicht gegen Null konverd s giert. Auÿerdem impliziert die Annahme f ∈ H (R ) für ein s > 0, dass ∗ −1/(2s+d) ist und damit kleidie Orakelbandweite hn von der Ordnung n −d/12 ner als (log n) . Dann gilt für den Diskretisierungsfehler M ISEn (hn ) − inf h∈[n−1/d ,(log n)−12/d ] M ISEn (h), dass der Varianzanteil von der Ordnung achte, dass wir nur Bandweiten für h 6 n−1/d der Varianzanteil in |(n1/d hn )−d − (n1/d h∗n )−d | 6 d|n1/d hn − n1/d h∗n | 6 dn1/d−d−1 (log n)−d/12 |A−d −B −d | 6 d|A−B| für A, B > 1), was um Gröÿenordnungen ∗ −1 . Der Biasanteil ist bestimmt durch als M ISEn (hn ) > n Z sup (|FK(hn u)|2 − |FK((hn + δ)u)|2 )|ϕ(u)|2 du. ist (beachte kleiner ist |δ|<n−d−1 Rd Benutzen wir nun die gleichmäÿige Lipschitzstetigkeit von FK , so ist das Integral von der Ordnung Z 2 Z (1 ∧ |δu|)|ϕ(u)| du 6 |δu|2s∧1 |ϕ(u)|2 du 6 |δ|2s∧1 kf k2H s . Also ist der Biasanteil im Diskretisierungsfehler ebenfalls von kleinerer Ordnung als n−2s/(2s+d) , die Ordnung von M ISEn (h∗n ). Wir haben insgesamt gezeigt, dass der Diskretisierungsfehler vernachlässigbar ist: M ISEn (hn ) − M ISEn (h∗n ) = 0. n→∞ M ISEn (h∗n ) lim EqKonvhathn Dieses deterministische Konvergenzresultat ergibt zusammen mit (5.12) die Behauptung. 5.3 Thresholding und Wavelets In diesem Abschnitt betrachten wir wiederum ein Signal in weiÿem Rauschen σ dYt = f (t) dt + √ dWt , n t ∈ [0, 1] und das äquivalente Folgenraummodell bezüglich einer Orthonormalbasis (ϕk )k>1 Z yk := 0 1 σ ϕk (t) dYt = fk + √ ζk , n k > 1, mit fk = hf, ϕk iL2 und ζk ∼ N (0, 1) i.i.d. Bei Wahl einer geeigneten Basis (ϕk ) können wir hoen, dass sich f bereits durch wenige Koezienten fk gut darstellen lässt, das heiÿt die meisten Koezienten sehr klein sind. Die 72 beobachteten empirischen Koezienten yk streuen um die wahren Koezi- Hard-Thresholding σ ist nun, jeden Koezienten fk direkt durch yk zu schätzen, sofern |yk | √ n gilt, andernfalls jedoch durch Null zu schätzen (keep or kill). Wir setzen für K ∈ N und einen Schwellwert κ > 1 fk enten σ jeweils in der Gröÿenordnung √ . Die Idee des n fˆ(hard) := K X (hard) fˆk ϕk , (hard) fˆk := yk 1(|yk | > κ √σn ). k=1 Falls |yk | nicht viel gröÿer als das Rauschniveau ist, so ist der stochastische Fehler im Allgemeinen nicht kleiner als das Signal, und es zahlt sich aus, auf Kosten eines Bias die Varianz auf Null zu reduzieren. Das Verfahren kann auch als multiples Testproblem interpretiert werden, wo jeweils die Hypothese Hk : fk = 0 getestet wird, oder aber als Modellwahlproblem, wo unter allen Teilmengen der Indexmenge ausgewählt werden kann. Erwünschter Nebeneekt dieser Methode ist eine starke Datenkompression ; fˆ(hard) wird im Allgemeinen wenige Koezienten ungleich Null be- sitzen, zumindest wenn f nur wenige signikante Koezienten besitzt, das heiÿt solche vom Betrag gröÿer als das Rauschniveau. Diese sparsame Basisdarstellung (sparse representation, sparsity) ist ein wichtiges Paradigma moderner Statistik und Bestandteil vieler Methoden (z.B. LASSO). Für die Analyse des Hard-Thresholding betrachten wir zunächst die Orakelwahl ist (Orakel) fˆk ∈ {0, yk }, 1 6 k 6 K . Wegen ( (Orakel) σ 2 /n, fˆk = yk , (Orakel) 2 Ef [(fˆk − fk ) ] = (Orakel) fˆk =0 fk2 , (Orakel) fˆk = yk 1(|fk | > √σ ) die Orakelwahl, und der Orakelschätzer besitzt n das Orakelrisiko Ef [kfˆ(Orakel) − f k2L2 ] = K X (fk2 ∧ k=1 X σ2 )+ fk2 . n k>K Zum Vergleich betrachte einen Projektionsschätzer fˆM auf die ersten M Koezienten mit MISE Ef [kfˆM − f k2L2 ] = M X σ2 k=1 Wir sehen also, dass für M 6K n + X fk2 . k>M der Orakel-Thresholding-Schätzer stets min- destens genauso gut ist wie ein Projektionsschätzer. Insbesondere erhalten s ([0, 1]), s > 0, die f aus Hper n 2 1/(2s+1) gewählt ist. Eioptimalen Minimaxraten, sofern nur K > (2s 2 kf ks ) σ ne kanonische Wahl von K ist im Regressionsproblem die Stichprobengröÿe wir daher für die Fourierbasis und Funktionen 73 n, n weil die n linear unabhängigen empirischen K > n bricht die Analogie zum Signal im Daten maximal zu zienten führen können (für Koeweiÿen Rauschen zusammen). Asymptotisch ist ein solcher Orakel-Schätzer dann raten-optimal in der Skala aller Sobolevräume der Ordnung s > 0. Die Ho- nung, dass der Thresholding-Schätzer damit ein adaptiver raten-optimaler Schätzer ist, erfüllt sich fast, das heiÿt bis auf einen logarithmischen Faktor. SatzHardOrakelUngl 5.16 Satz. Schätzer Betrachte fˆ(hard) := im K X Folgenraummodell (hard) fˆk ϕk , den Hard-Thresholding- (hard) fˆk := yk 1(|yk | > κ √σn ) k=1 mit κ > 2 und K ∈ N sowie den entsprechenden Orakel-ThresholdingSchätzer fˆ(Orakel) . Dann gilt folgende Orakelungleichung für beliebige f ∈ L2 ([0, 1]) 2 2 Ef [kfˆ(hard) −f k2L2 ] 6 (4κ2 +1) E[kfˆ(Orakel) −f k2L2 ]+ 2K σn +kf k2L2 √κ2π e−(κ−1) /2 . Bei Wahl von κ = insbesondere √ √ 2 log K ( 2 log K heiÿt universal threshold) gilt dann Ef [kfˆ(hard) −f k2L2 ] 6 (8 log K+1) E[kfˆ(Orakel) −f k2L2 ]+ Beweis. 2 2σ 2 kf kL2 n + K √ p log KK 1/ log K . Die Idee ist es, den Fehler in jedem Koezienten in vier Fälle auf- zuspalten, die sich durch Thresholding / kein Thresholding im Fall groÿer / kleiner Koezienten ergeben (k 6 K ): (hard) Ef [(fˆk − fk )2 ] = Ef [(yk 1(|yk | > κ √σn ) − fk )2 ] = Ef [(yk − fk )2 1(|yk | > κ √σn , |fk | 6 + + + √σ )] n 2 σ Ef [(yk − fk ) 1(|yk | > κ √n , |fk | > √σn )] Ef [fk2 1(|yk | < κ √σn , |fk | > 2κ √σn )] Ef [fk2 1(|yk | < κ √σn , |fk | 6 2κ √σn )] =: T1 + T2 + T3 + T4 . Die Terme T1 und T3 werden mittels groÿer Abweichungen für normalverteilte T2 und T4 bis auf den Schwellenwert Zufallsvariablen abgeschätzt, während κ den entsprechenden Fehlern beim Orakelschätzer entsprechen; wir erhalten 2 T2 6 E[ σn ζk2 1(|fk | > sowie T4 6 fk2 1(|fk | 6 2κ √σn ) √σ )] n = σ2 n 1(|fk | und somit T2 + T4 6 (1 + 4κ2 )(fk2 ∧ 74 σ2 n ). > √σ ) n T1 Z Für 1 √ 2π verwenden wir das Integral ∞ x(xe −x2 /2 A Z ∞ 1 A 2 2 −x2 /2 ∞ )dx = √ e−x /2 dx = √ e−A /2 +1−Φ(A) −xe |A + 2π 2π A sowie die Abschätzung 1 − Φ(A) 6 κ>2 T1 6 2 √ 1 e−A /2 für 2πA A > 1, so dass wegen σ2 σ 2 2(κ − 1) + (κ − 1)−1 −(κ−1)2 /2 σ 2 2κ −(κ−1)2 /2 √ √ e Ef [ζk2 1(|ζk | > κ−1)] 6 e 6 n n n 2π 2π gilt. Wir schlieÿen in ähnlicher Weise κ−1 2 T3 6 fk2 P (|ζk | > κ) 6 fk2 √ e−κ /2 . 2π In Summe ergibt sich also (hard) Ef [(fˆk − fk )2 ] 6 (1 + 4κ2 )(fk2 ∧ Für den Orakelschätzer gilt ja mation über k ∈ {1, . . . , K} σ2 n ) 2σ 2 n + + fk2 2 √κ e−(κ−1) /2 . 2π (Orakel) Ef [(fˆk − fk )2 ] = fk2 ∧ σ2 n , so dass Sum- ergibt 2 Ef [kfˆ(hard) −f k2L2 ] 6 (1+4κ2 ) E[kfˆ(Orakel) −f k2L2 ]+ 2K σn +kf k2L2 2 √κ e−(κ−1) /2 , 2π wie behauptet. Einsetzen liefert das zweite Resultat. universal threshold κ garantiert insbesondere, dass der der Orakelungleichung in n und K von kleinerer Ordnung als alle p > 0 ist, so dass im wesentlichen die Gröÿenordnung des Die Wahl der Restterm in 2 o( σn K p ) für parametrischen Fehlers σ2 n gilt, der für nichtparametrische Probleme vernach- lässigbar ist. Beachte, dass im asymptotisch äquivalenten Regressionsmodell n K=n Beobachtungen vorliegen und daher eine kanonische Wahl ist. Im folgenden werden wir daher sehen, dass der Hard-Thresholding-Schätzer Minimaxraten bis auf einen logarithmischen Faktor erreicht. Der Hard-Thresholding-Schätzer ergibt sich äquivalent auch durch das Minimierungsproblem I Übung fˆ(hard) = argming∈span(ϕ1 ,...,ϕk ) K X 2 (yk − gk )2 + κ2 σn |{k ∈ {1, . . . , K} | gk 6= 0}| . | {z } |k=1 {z } `0 -Penalisierung empirisches Risiko Diese Idee der Minimierung des empirischen Risikos plus eines Strafterms, der eine spärliche Darstellung bewirkt, wird auch für viele komplexe Schätzprobleme verwendet. Allerdings führt `0 -Penalisierung nicht auf ein konve- xes Minimierungsproblem in den Koezienten und ist daher oft nicht einfach 75 berechenbar (NP-hartes Problem). Als sogenannte man die konvexe Relaxation erhält `1 -Penalisierung fˆ(sof t) = argming∈span(ϕ1 ,...,ϕk ) K X 2 κ √σn K X |gk | . } | k=1 {z (yk − gk ) + k=1 | {z empirisches Risiko Hier lassen sich die Koezienten der Lösung } `1 -Penalisierung wiederum auch explizit angebenI Übung : (sof t) fˆk = (yk − κ √σn )+ − (yk + κ √σn )− . Der Schätzer heiÿt Soft-Thresholding-Schätzer. Auch unter statistischen Ge- sichtspunkten ergeben sich Vorteile des Soft-Thresholding. Insbesondere ist der Schätzer stetig in den Daten und im Schwellwert Schwankungen in den Daten oder in κ κ, so dass geringe zu ähnlichen Ergebnissen führen, was beim Hard-Thresholding nicht notwendigerweise der Fall ist. Die statistische Theorie beider Thresholding-Verfahren ist sehr ähnlich, auch beim Soft-Thresholding ergibt sich eine entsprechende Orakelungleichung mit logarithmischem Faktor unter der universal threshold κ = √ 2 log K . Für die sparsame (sparse) Darstellung von Funktionen sind WaveletBasen besonders gut geeignet. Wir führen die Theorie anhand der einfachen Haarwavelets vor, die Resultate lassen sich aber alle auf allgemeine Waveletbasen (ψjk ) verallgemeinern, siehe z.B. Härdle, Kerkyacharian, Picard, and Tsybakov (1998). Für eine anwendungsorientierte Übersicht und Diskussion von Waveletmethoden in der Statistik sei (Nason 2008) empfohlen. 5.17 Denition. sowie für Setze ϕ(x) := 1[0,1] (x), ψ(x) = 1[0,1/2] (x) − 1[1/2,1] (x) j ∈ N0 , k = 0, . . . , 2j − 1 ψjk (x) = 2j/2 ψ(2j x − k) = 2j/2 (1[k2−j ,(k+1/2)2−j ] (x) − 1[(k+1/2)2−j ,(k+1)2−j ] ). Man nennt (ψjk ) Haar-Wavelets, ψ Mutter-Wavelet und ϕ Skalierungsfunktion. Mit der Notation ψ−1,k := ϕ bildet (ψjk )j>−1,k eine Orthonormalbasis 2 in L ([0, 1]), die Haar-Wavelet-Basis. Weiterhin betrachten wir die Approximationsräume VJ := span(ψj,k , −1 6 j < J, k = 0, . . . , 2j − 1), J ∈ N, sowie die Orthogo2 nalprojektionen ΠJ : L ([0, 1]) → VJ . Die Approximationsräume VJ = {f ∈ L2 ([0, 1]) | f VJ lassen sich durch ist f.ü. konstant auf beschreiben und besitzen die Dimension [k2−J , (k+1)−J ], k = 0, . . . , 2J −1} 2J . Anhand einfacher Beispiele wol- len wir die Approximationseigenschaften der (Haar-)Wavelets ergründen. 76 5.18 Beispiele. (a) Betrachte f ∈ C α ([0, 1]) mit α ∈ (0, 1] und Hölderkonstanten L > 0. Wir erhalten: Z |hf, ψjk iL2 | = 2j/2 (k+1/2)2−j k2−j (f (x) − f (x + 2−j−1 )) dx 6 L2−j(α+1/2) . Damit folgt als (linearer) Approximationsfehler kf −ΠJ f k2L2 = X hf, ψjk i2 6 L2 der 2j 2−j(2α+1) = (1−2−2α )−1 L2 2−2αJ . j>J j>J,k Bezüglich X von VJ ergibt sich die Schranke (1 − −2α . Dies hatten wir auf anderem Wege bereits in J) Dimension 2−2α )−1 L2 dim(V BspApproxraum Beispiel 3.22(a) gesehen. f (x) = 1[0,s] (x) mit s ∈ (0, 1). hf, ψjk i = 0 im Fall s ∈ / (k2−j , (k + 1)2−j ) sowie −j/2 −j , (k + 1)2−j ). Mit im Fall s ∈ (k2 |hf, ψjk i| 6 kf k∞ kψjk kL1 = 2 kj := bs2j c ergibt sich also kurz |hf, ψjk i| 6 2−j/2 1(k = kj ). (b) Betrachte die einfache Sprungfunktion Dann gilt oenbar Als linearen Approximationsfehler erhalten wir kf − ΠJ f k2L2 6 X hf, ψjk i2 6 2−j = 2−J+1 . j>J j>J,k Dies ist dieselbe Rate wie für X f ∈ C α ([0, 1]) kann man zeigen, dass die Sprungfunktion jede L2 -Sobolev-Sinn α = 1/2. In der Tat Glattheit s < 1/2 im mit besitzt (bestimme z.B. die Fourierkoezienten), al- lerdings ist die Gröÿe der Wavelet-Koezienten grundverschieden vom j nur ein Koezient die Ordnung 2−j/2 besitzt, anstatt dass alle Koezienten die maximale Ordnung 2−j besitzen. Die Sprungfunktion hat also bedeutend weniger signiHölderfall, weil auf jedem Niveau kante Wavelet-Koezienten. Falls wir diese Koezienten kennen würden, so könnten wir mit entsprechenden N Basisfunktionen einen sehr viel kleineren (nichtlinearen) Approximationsfehler erreichen (beste Term-Approximation): 2 X X hf, ψj,kj iψj,kj = hf, ψj,kj i2 = 2−N +2 . f − −16j6N −2 Bei analoger Wahl L2 N = dim(VJ ) = 2J N- j>N −1 wie im linearen Projektionsfall wäre der Fehler also äuÿerst klein (hyperexponentiell in J ). f , die α-Hölder-stetig mit α > 1/2 ist, Sprungstelle s ∈ (0, 1). Dann können wir f als Li- (c) Betrachte nun eine Funktion jenseits von einer nearkombination der Funktionen aus (a) und (b) schreiben. Die Gröÿenordnung der Approximationsfehler ergibt sich als Summe aus (a) 77 kf − ΠJ f k2L2 = O(2−J ), aber kf − f˜2J k2L2 = O(2−2αJ ) für die beste N -Term-Approximation f˜N . Die lokale Nichtregularität von f bei s ist also unwesentlich für den Approximationsfehler. Wie wir sehen und (b), d.h werden, können Funktionen mit lokalen Irregularitäten (wie Sprüngen Lp -Normen oder Spitzen) in mit p<2 mit für ihre Koezienten recht gut beschrieben werden. 5.19 Denition. s ([0, 1]) Bpq `p -Normen bzw. in Eine f Funktion s > 0, p, q ∈ [1, ∞], falls ∈ Lp ([0, 1]) liegt im Besovraum p für den L -Stetigkeitsmodul ωn (f, h)p := sup k∆ny f kLp ([0,1−h]) , ∆y f (x) := f (x + y) − f (x), 06y6h mit n = bsc + 1 ∆ny f := ∆n−1 (∆y f ) y und gilt (2sj ωn (f, 2−j )p )j>0 ∈ `q . Der Besovraum wird normiert durch kf ks,p,q = kf kLp + (2sj ωn (f, 2−j )p )j>0 q . ` 5.20 Bemerkung. s Man kann zeigen, dass Bpq ([0, 1]) ein Banachraum ist. s ([0, 1]) = Für p = q = 2 und s ∈ / N ergibt sich der L2 -Sobolevraum B2,2 s s H ([0, 1]) (deniert z.B. durch Restriktion von H (R)) sowie für p = q = ∞ s B∞,∞ ([0, 1]) = C s ([0, 1]). Mit p Besovnorm wird also die Glattheit einer Funktion im L -Sinn gemessen, Parameter q ist eher unwichtig und liefert nur noch ein Fine-tuning. und LemmaWavKoeff s∈ /N der entsprechende Hölderraum 5.21 Lemma. Die Haar-Wavelet-Koezienten einer Funktion f s ([0, 1]) erfüllen im Fall s ∈ (0, 1) Bp,q j(s+1/2−1/p) 2 (hf, ψjk i)k p 6 kf ks,p,q . ` der der ∈ j>0 `q Insbesondere gilt also X 2 j(s+1/2−1/p)p j>0 Beweis. Wegen j −1 2X |hf, ψjk i|p 6 kf kps,p,p . k=0 s<1 betrachten wir n=1 und erhalten für jedes j>0 mit der Jensenschen Ungleichung j −1 2X p |hf, ψjk i| = k=0 j −1 2X j/2 2 k=0 6 j −1 2X 2 Dies impliziert 2j(1/2−1/p) ( (k+1/2)2−j (f (x) − f (x + 2 k2−j −jp/2 j Z (k+1/2)2−j 2 k=0 j(1−p/2) 62 Z −j−1 p )) dx |f (x) − f (x + 2−j−1 )|p dx k2−j ω1 (f, 2−j−1 )p . P2j −1 k=0 |hf, ψjk i|p )1/p 6 ω1 (f, 2−j−1 )p , zen in die Denitionen liefert das Ergebnis. 78 und Einset- 5.22 Bemerkung. Auch mit einem geeigneten Faktor multipliziert, kann die Ungleichung nicht immer auch in die andere Richtung gelten, da eine Funktion mit nur endlich vielen Haar-Koezienten ungleich Null eine s Bpq Sprungfunktion ist und nicht in allen mit s ∈ (0, 1) liegt. Sogenannte re- guläre Wavelet-Basen erlauben jedoch gerade eine Normäquivalenz zwischen den Besovnormen und den wie oben gewichteten Folgenraumnormen in den Koezienten, vergleiche z.B. (Wojtaszczyk 1997, Cor. 9.10). Im Zusammenhang mit dem Folgenraummodell erlaubt dies eine gewichtete p<2 Schätzprobleme, wobei der Fall gerade sparsity `p -Analyse der codiert. 5.23 Beispiele. f (x) = 1[0,a] (x), a ∈ (0, 1). Dann gilt h ∈ (0, a] und daher 2js ω1 (f, 2−j ) ∈ `∞ (a) Betrachte die Sprungfunktion ω1 (f, h)pp = Ra a−h 1p dx für 1/p f ∈ Bp,∞ ([0, 1]) p=1 benötigen wir dazu allerdings die ebenfalls korrekte Abschätzung für ω2 (f, h)p ) genau für sowie f∈ s 6 1/p. =h Wir schlieÿen s ([0, 1]) für Bp,q f (x) = xα s < 1/p im Fall (für q < ∞. α ∈ (0, 1]. Eine klassische Analyse beruht 0 α−1 in Lp ([0, 1]) für p < dann auf der Beobachtung, dass f (x) = αx −1 p (1 − α) liegt. Im Sinne der L -Sobolevräume W m,p der Regularität m ∈ N gilt also f ∈ W 1,p für alle p < (1 − α)−1 , insbesondere f ∈ W 1,2 = H 1 für α > 1/2. In der Skala der Besovräume mit s < 1 R x+y p f 0 ab: schätzen wir den L -Stetigkeitsmodul mittels ∆y f (x) = x (b) Betrachte ω1 (f, h)pp mit 1−h Z x+y Z 6 sup 6 06y6h 0 Z h αp Z p dx x 1 (αxα−1 h)p dx 6 h1+αp + h dx + 0 αz α−1 dz h 1+αp αp . (1−α)p h 2js ω1 (f, 2−j )p 6 C2j(s−α−1/p) mit einer Konstanten C > 0. js −j ) ∞ für s 6 α + 1/p sowie Wir schlieÿen also 2 ω1 (f, 2 p ∈ ` 2js ω1 (f, 2−j )p ∈ `q mit q < ∞ für s < α + 1/p. Dasselbe Resultat −j ) mit n > 2, so dass f ∈ B α+1/p für folgt analog auch für ωn (f, 2 p,∞ p alle p ∈ [1, ∞] gilt. Im Fall p = ∞ erhalten wir gerade die Glattheit α als Hölder-Regularität, im Fall p = 2 (L2 -Sobolev-Klasse) gewinnen wir jedoch eine halbe Glattheitsordnung, im Fall p = 1 sogar eine ganze Glattheitsordnung. Für q < ∞ erreichen wir mit s < α + 1/p jeweils nicht ganz diese Glattheitsordnung, vergleiche auch die I Übung ent- Somit gilt sprechenden Einbettungen der Besovräume. Wie wir oben gesehen haben, spielt für unseren statistischen Schätzfehler im MISE bei der Projektionsmethode gerade die L2 -Sobolevklasse die entscheidende Rolle. Durch Verwendung von Wavelet-Thresholding-Schätzern können wir sogar Lp -Glattheiten mit p<2 ausnutzen. 79 5.24 Satz. Betrachte den Orakel-Thresholding-Schätzer im Folgenraummodell bezüglich der Haar-Wavelet-Basis und mit K = 2J > n/σ 2 . Dann gilt s ([0, 1]) mit p ∈ [1, 2] und s − 1 > s − 1 für f ∈ Bpp p 2s+1 2 Ef [kfˆ(Orakel) − f k2L2 ] 6 C1 max kf k2s,p,p , kf k2/(2s+1) s,p,p σ 2 2s/(2s+1) n mit einer Konstanten C1 > 0. Für den entsprechenden Hard-ThresholdingSchätzer mit der universal threshold κ und der zusätzlichen Eigenschaft K = 2J 6 c0 n/σ 2 für ein c0 ∈ [1, ∞) folgt daraus Ef [kfˆ(hard) − f k2L2 ] 6 C2 max kf k2s,p,p , kf k2/(2s+1) s,p,p σ 2 log(n/σ 2 ) 2s/(2s+1) n mit einer Konstanten C2 > 0. Beweis. LemmaWavKoeff Nach Lemma 5.21 gilt für die Waveletkoezienten X 2 j(s+1/2−1/p)p j −1 2X j>0 fjk = hf, ψjk i |fjk |p 6 kf kps,p,p . k=0 Js ∈ N mit Js 6 J so, dass 2Js von der Gröÿenordnung 2 2 1/(2s+1) (nkf ks,p,p /σ ) ist, was der raten-optimalen Wahl bei der Projektionsp methode entspricht. Dann ergeben sich mittels obiger ` -Abschätzung drei Wähle nun den Index verschiedene Zonen in j Ef [kfˆ(Orakel) − f k2L2 ] = bei der Risikoabschätzung: X 2 ∧ fjk σ2 n j<J,k 2 6 2Js σn + |fjk |p nσ1−p/2 + X |fjk |p 2/p j>J,k Js 6j<J,k σ2 2 fjk j>J,k 2−p X X + 2s/(2s+1) σ 2−p 6 c1 kf k2/(2s+1) + n1−p/2 kf kps,p,p 2−Js (s+1/2−1/p)p + kf k2s,p,p 2−2J(s+1/2−1/p) s,p,p n 2/(2s+1) σ 2 2s/(2s+1) 2 σ 2 2s/(2s+1) σ 2 2(s+1/2−1/p) 6 c2 kf k2/(2s+1) + kf k + kf k s,p,p s,p,p s,p,p n n n mit Konstanten ten Ungleichung c1 , c2 > 0, wobei für den mittleren Term in der letz- (s+1/2−1/p)p 2s+1 s + 1/p − 1/2 > s/(2s + 1) = −1 + p 2 + 2s 2s+1 benutzt wurde. Wegen folgt daher die behauptete Abschätzung für SatzHardOrakelUngl den Orakelschätzer. Mit der Orakelungleichung aus Satz 5.16 impliziert dies sofort die Abschätzung für den Hard-Thresholding-Schätzer. 5.25 Beispiel. stellen liegt in Eine Lipschitz-stetige Funktion s ([0, 1]) Bp,p für s < 1/p, f mit endlich vielen Sprung- weil Sprungfunktionen in diesem Raum liegen, ebenso Lipschitz-Funktionen wegen s ([0, 1]), s < 1, Bp,p und f I Übung 1 B∞,∞ ([0, 1]) ⊆ als Linearkombination dieser Funktionen im sel- ben Besovraum liegt. Nach obigem Satz hat der Wavelet-Hard-ThresholdingSchätzer demnach die Rate (n/ log n)−2s/(2s+1) 80 für alle s < 1/p, sofern s s − p1 > 2s+1 − 12 erfüllt ist. Für p = 1 können wir jedoch gerade s ∈ (1 − ε, 1) mit ε > 0 hinreichend klein wählen, so dass die letzte Bedingung erfüllt ist. Diese Argumentation über Besov-Glattheiten zeigt, dass wir die Rate (n/ log n)−2/3+ε 0 für jedes ε0 > 0 erreichen, was fast der Rate für Lipschitz- Funktionen ohne Sprünge entspricht. Ein lineares Verfahren wie Projekti- L2 -Sobolev-Glattheit s < 1/2 −1/2 im MISE führt. Für solche ausgenutzt, was zu einer Rate der Ordnung n onsschätzung hätte demgegenüber nur die Funktionen ergibt Wavelet-Thresholding also bedeutende Ezienzgewinne. Andere nichtlineare Schätzverfahren wie lokale Bandweitenwahl bei Kernschätzern oder adaptive Knotenwahl bei Spline-Schätzern erlauben ähnliche Resultate, jedoch mit aufwändigeren Beweisen. Es sei hier betont, dass sich die Einführung der Besov-Glattheitsklassen als ein gutes allgemeines Konzept bewährt hat, diese Konvergenzraten abzuschätzen ; unsere detaillierte Einzelanalyse für Waveletkoezienten von Sprungfunktionen zeigt nur noch, dass wir sogar genau die Rate (n/ log n)−2/3 erreichen. 5.4 Lepski-Methode Ein sequentielles Testverfahren ist das Herz der Lepski-Methode. Sie ndet als adaptives Schätzverfahren von Funktionalen Anwendung und wurde ursprünglich zur lokalen Bandweitenwahl für Kernschätzer entwickelt. Die fundamentale Idee ist, aus vorliegenden reellwertigen Schätzern ϑ̃0 , ϑ̃1 , . . . , ϑ̃K , deren Varianz mit wachsendem Index fällt und deren Bias im Schnitt wächst, Hk : ϑ̃0 = ϑ̃1 = · · · = ϑ̃k zu testen. Sind H0 , H1 , . . . , Hk akzeptiert, weicht jedoch ϑ̃k+1 signikant von ϑ̃0 , ϑ̃1 , . . . , ϑ̃k ab, so lehne Hk+1 ab und wähle k̂ = k . Der Schätzer ϑ̂ := ϑ̃ sollte dann k̂ unter den Schätzern ϑ̃k , die einen quadrierten Bias von kleinerer Gröÿensequentiell die Hypothesen ordnung als die Varianz besitzen, die kleinste Varianz besitzen. Natürlich ist die mathematische Analyse von ϑ̂ komplexer, und es bedarf einer genauen Festlegung der Tests und ihrer kritischen Werte. 5.26 Denition. Als konkretes Modell betrachten wir das Regressionspro- blem Yi = f (xi ) + εi , i = 1, . . . , n, (εi ) i.i.d., E[εi ] = 0, E[ε2i ] < ∞ und Design (xi ) ⊆ Rd . Die Verteilung d von εi sei bekannt. Als Schätzer von f an der Stelle x0 ∈ R verwende für Bandweiten h0 < h1 < · · · < hK die Nadaraja-Watson-Schätzer Pn Yi Khk (x0 − xi ) ϑ̃k := Pi=1 , n i=1 Khk (x0 − xi ) mit K : Rd → [0, ∞) mit Träger in {x ∈ Rd | |x| 6 1} s2j := Var(ϑ̃j ), s2kj := Var(ϑ̃k − ϑ̃j ) und nimm ∞ > s0 > wobei eine Kernfunktion gewählt sei. Setze s1 > · · · > sK an. 81 zk , k = 0, . . . , K − 1, zK := 1 bestimme den ϑ̂ := ϑ̃k̂ gemäÿ der Lepski-Methode als n o k̂ := inf k = 0, . . . , K ∃j 6 k : |ϑ̃k+1 − ϑ̃j | > zj sk+1,j + zk+1 sk+1 ∧ K. Für positive kritische Werte Schätzer Folgender Algorithmus beschreibt die Lepski-Methode iterativ: • initialisiere k := 0; • wiederhole falls ∀ j = 0, . . . , k : |ϑ̃k+1 − ϑ̃j | 6 zj sk+1,j + zk+1 sk+1 , erhöhe k um eins, sonst stoppe; solange, bis k = K ; • Setze k̂ := k . ϑ̂ mit einem Orakel∗ Typ-Schätzer ϑ̃ Der Fehler durch zu spätes Stoppen {k̂ > k } wird direkt ∗ durch die Methode beschränkt, während zu frühes Stoppen {k̂ < k } durch Zur Analyse der Lepski-Methode vergleichen wir k∗ . eine geeignete Wahl der kritischen Werte kontrolliert wird. LemmaSpaetStop 5.27 Lemma. Für jedes k ∗ = 0, 1, . . . , K − 1 gilt |ϑ̂ − ϑ̃k∗ |1(k̂ > k ∗ ) 6 Beweis. max (zk∗ sj+1,k∗ + zj+1 sj+1 ). k∗ 6j6K−1 Die Denition der Lepski-Methode impliziert, dass aus k̂ > k ∗ ins- besondere |ϑ̂ − ϑ̃k∗ | 6 zk∗ sk̂,k∗ + zk̂ sk̂ folgt. Die rechte Seite wird durch das Maximum wegen k̂ ∈ {k ∗ + 1, . . . , K} abgeschätzt. 5.28 Bemerkung. Die Ungleichung ist für alle Realisierungen von (Yi ) per Konstruktion wahr, nicht nur fast sicher. Wir sehen, dass der Fehler durch spätes Stoppen umso kleiner ist, je kleiner die kritischen Werte (zk ) gewählt sind. 5.29 Denition. kalibriert Wir sagen, dass die kritischen Werte sind, falls für einen Kondenzparameter K−1 X h E0 ϑ̃2j 1 α>0 ∃l 6 j : |ϑ̃j+1 − ϑ̃l | > zl sj+1,l j=0 82 i unter der Null αgilt 6 αs2K . Eine kanonische Wahl zur Kalibrierung unter der Null erfolgt iterativ. Wähle zunächst z0 > 0 K−1 X j=0 gilt. Für gegebene K−1 X so, dass h i α E0 ϑ̃2j 1 |ϑ̃j+1 − ϑ̃0 | > z0 sj+1,0 6 s2K K z0 , . . . , zk−1 wähle dann zk > 0 gemäÿ h i α E0 ϑ̃2j 1 |ϑ̃j+1 − ϑ̃k | > zk sj+1,k , ∀l < k : |ϑ̃j+1 − ϑ̃l | 6 zl sj+1,l 6 s2K . K j=k Eine Summation dieser Ungleichungen ergibt genau die geforderte Kalibrierungsbedingung. In der Praxis bestimmt man die kritischen Werte, indem man die Lepski-Methode auf den Fall reinen Rauschens (f = 0) anwendet, zj+1 sj+1 in den Tests jeweils weglässt. Der Orakel-Index ∗ ist natürlich k = K , und zk wird so gewählt, dass der Fehler durch Stoppen α 2 wegen einer Abweichung von ϑ̃k nur das Vielfache K des Orakelfehlers sK beträgt. Später leiten wir eine asymptotische Gröÿenordnung der (zk ) her. jedoch den Term 5.30 Denition. deniere die Für die Regressionsfunktion f und den Punkt lokale Variation Vk (f ) := x0 ∈ Rd |f (y1 ) − f (y2 )| sup y1 ,y2 ∈{y:|y−x0 |6hk } und betrachte den Orakel-Typ-Index ∗ k := inf{k = 0, 1, . . . , K − 1 | Vk+1 (f ) > zk+1 sk+1 } ∧ K. Wir interpretieren in ϑ̃k k∗ als Orakel, weil der durch Vk abgeschätzte Bias dort gerade noch kleiner ist als der stochastische Fehler multipliziert zK = 1 balanciert gerade Bias und k ∗ = K −1, vorher wird zk im Allgemeinen mit dem kritischen Wert. Die Wahl stochastischen Fehler beim Index gröÿer als Eins sein. SatzFruehStop 5.31 Satz. Null Für den Orakel-Typ-Index k ∗ gilt bei α-Kalibrierung unter der Ef [(ϑ̂ − ϑ̃k∗ )2 1(k̂ < k ∗ )] 6 2(zk2∗ + α)s2k∗ . Beweis. Wir werden k̂(f ), ϑ̃k (f ) etc. schreiben, um die Abhängigkeit von der Regressionsfunktion zu kennzeichnen. Setzen wir (k) wi := K (x−Xi ) P hk , so j Khk (x−Xj ) P (k) (k) > 0 (wegen K > 0), ni=1 wi = 1 sowie wi = 0 für |xi − x0 | > hk d (wegen supp K ⊆ {x ∈ R | |x| 6 1}). Wir schlieÿen für j < k n X (j) (k) |ϑ̃j (f ) − ϑ̃k (f )| 6 |ϑ̃j (0) − ϑ̃k (0)| + (wi − wi )f (xi ) gilt (k) wi i=1 6 |ϑ̃j (0) − ϑ̃k (0)| + max i,i0 :|xi −x0 |,|xi0 −x0 |6hk 6 |ϑ̃j (0) − ϑ̃k (0)| + Vk (f ). 83 |f (xi ) − f (xi0 )| Daher erhalten wir mit (A + B)2 6 2A2 + 2B 2 die Abschätzung E[(ϑ̂(f ) − ϑ̃k∗ (f ))2 1(k̂(f ) < k ∗ )] 6 2Vk∗ (f ) + 2 E[(ϑ̂(0) − ϑ̃k∗ (0))2 1(k̂(f ) < k ∗ )] 6 2Vk∗ (f )+ ∗ −1 kX h i 2 E (ϑ̃j (0) − ϑ̃k∗ (0))2 1 ∃l 6 j : |ϑ̃j+1 (f ) − ϑ̃l (f )| > zl sj+1,l + zj+1 sj+1 j=0 6 2zk2∗ s2k∗ 6 2zk2∗ s2k∗ +2 + ∗ −1 kX h i E (ϑ̃j (0) − ϑ̃k∗ (0))2 1 ∃l 6 j : |ϑ̃j+1 (0) − ϑ̃l (0)| > zl sj+1,l j=0 2αs2K , wobei wir in der vorletzten Zeile die Denition von Zeile die α-Kalibrierung sk ∗ > sK . k∗ und in der letzten unter der Null verwendet haben. Die Behauptung folgt nun aus KorLepskiNonAsymp 5.32 Korollar. Die kritischen Werte (zk ) seien α-kalibriert unter der Null und so gewählt, dass (zk sk ) monoton fallend in k ist. Dann folgt mit dem Orakel-Typ-Index k ∗ Ef [(ϑ̂ − ϑ̃k∗ )2 ] 6 11zk2∗ + 2α)s2k∗ . Beweis. LemmaSpaetStop Aus Lemma 5.27 folgt Ef [(ϑ̂ − ϑ̃k∗ )2 1(k̂ > k ∗ )] 6 Es gilt nun stets (zk∗ sj+1,k∗ + zj+1 sj+1 )2 . max k∗ 6j6K−1 s2jk 6 2s2k +2s2j 6 4s2k für j > k , so dass wir unter Benutzung (3zk∗ sk∗ )2 weiter abschätzen der Monotonieannahme die rechte Seite mit können. Dies impliziert das Ergebnis durch Addition mit der Abschätzung SatzFruehStop aus Satz 5.31. 5.33 Bemerkung. Die oder monoton fallend in (zk ) werden im Allgemeinen bereits selbst konstant k sein, so dass die Bedingung des Korollars in der Regel erfüllt ist. Umso stärker ist die Aussage dieses Korollars: der zusätzliche Fehler durch adaptive Bandweitenwahl ist beschränkt durch ein Vielfaches des Orakel-Typ-Fehlers, wobei α und der α-kalibrierte kritische Wert den Faktor bestimmen. Bei einer konkreten Stichprobe kann dieser Faktor noch in α optimiert werden; für ein allgemeines Verständnis ist eine asymptotische Analyse hilfreicher. Wir stellen nun beispielhaft ein typisches asymptotisches Resultat vor, weitreichende Verallgemeinerungen, beispielsweise für höhere Dimensionen, irreguläre Designs oder nicht-Gauÿsche Fehler, sind möglich. 84 5.34 Satz. Betrachte den Fall äquidistanten Designs xi = i/n auf dem Einheitsintervall, Gauÿsche Fehler εi ∼ N (0, σ 2 ) sowie x0 ∈ (0, 1). Weiterhin seien die Bandweiten hk = h0 q k , k = 0, . . . , K , geometrisch wachsend mit h0 = 1/n, q > 1 und K = blogq (n)c gewählt. Dann sind die kritischen √ Werte α-kalibriert unter der Null für alle α > 0, falls nur zk = ζ log n, k = 0, 1, . . . , K − 1, mit ζ > 0 hinreichend groÿ gewählt sind (asymptotisch reicht ζ > 2). Es folgt für alle Hölderklassen H[0,1] (β, L) mit β ∈ (0, 1], L > 0 sup Ef [(ϑ̂ − f (x0 ))2 ] = O L2/(2β+1) (n/ log n)−2β/(2β+1) . f ∈H[0,1] (β,L) Beweis. Da die Fehler normalverteilt sind, erhalten wir die Gauÿsche Kon- zentrationsungleichung 2 P0 (|ϑ̃j+1 − ϑ̃k | > zk sj+1,k ) 6 2e−zk /2 . fˆn,h (x0 ) für die Varianz s2j ∈ C1 > c1 > 0. Eine Anwendung j Identität nhj = q ergeben Auÿerdem erhalten wir aus der Analyse von [c1 σ 2 (nh −1 2 −1 j ) , C1 σ (nhj ) ] mit Konstanten der Cauchy-Schwarz-Ungleichung und die E0 [ϑ̃2j 1(|ϑ̃j+1 − ϑ̃k | > zk )] 6 E0 [ϑ̃4j ]1/2 P0 (|ϑ̃j+1 − ϑ̃k | > zk )1/2 √ √ 2 2 6 6s2j e−zk /4 6 6C12 σ 2 q −2j n−ζ /4 . Summation über j = 0, . . . , K − 1 und eine triviale Abschätzung des Indika- tors zeigen daher K−1 X h i 2 E0 ϑ̃2j 1 ∃l 6 j : |ϑ̃j+1 − ϑ̃l | 6 zl sj+1,l 6 C2 σ 2 n−ζ /4 j=0 C2 > 0. Dies ist kleiner als αc1 n−1 σ 2 6 αs2K ζ 2 > 4(1 + log(αc1KorLepskiNonAsymp /C2 )/(log n)) = 4 + o(1). Die erste Behauptung folgt. mit einer Konstanten für Nach Korollar 5.32 folgt mit der angegebenen Wahl der kritischen Werte Ef [(ϑ̂ − ϑ̃k∗ )2 ] = O(log(n)(nhk∗ )−1 ). Für f ∈ H[0,1] (β, L) den Orakel-Typ-Index Lhβk∗ > c3 p log n(nhk∗ )−1/2 Dies impliziert auch, dass dies also für groÿe Vk (f ) 6 L(2hk )β erfüllt, und mit Konstanten c3 , c4 > 0 ist n ⇒ somit erhalten wir für hk∗ > c4 L2 n/ log n)−1/(2β+1) . Ef [(ϑ̂ − ϑ̃k∗ )2 ] = O(L2/(2β+1) (n/ log n)−2β/(2β+1) ). Beachte ∗ ∗ zeigt, dass k mindestens wie log n wächst, der Fall k = 0 nie vorkommt. Andererseits gilt nach Denition für für den Biasterm im Schätzer ϑ̃k∗ k∗ > 0 auch Vk∗ (f ) 6 zk∗ sk∗ und folgt Pn (f (i/n) − f (x ))K (x − i/n) p 0 0 hk∗ i=1 P 6 Vk∗ (f ) = O( log n(nhk∗ )−1/2 ). n i=1 Khk∗ (x0 − i/n) 85 Damit sind quadrierter Bias und Varianz von ϑ̃k∗ beide von der Ordnung O(L2/(2β+1) (n/ log n)−2β/(2β+1) ), und die Behauptung folgt mit der Unglei2 2 2 chung (ϑ̂ − f (x0 )) 6 2(ϑ̂ − ϑ̃k∗ ) + 2(ϑ̃k∗ − f (x0 )) . In Lepski (1990) wird bewiesen (für den Fall eines Signals in weiÿem Rauschen), dass die Rate (n/ log n)−2β/(2β+1) für punktweises Risiko mi- nimax ist bei adaptiver Schätzung über die Familie von Hölderklassen (H[0,1] (β, L))β∈(0,1] . Bei punktweisem Risiko müssen wir also in der Konver- genzrate verlieren, wenn wir adaptiv schätzen wollen, im scharfen Kontrast zum MISE, wo ja sogar asymptotisch exakte Orakelungleichungen gelten. Es sei erwähnt, dass die Lepski-Methode angewendet auf lokale Polynome oder Projektionsschätzer dieselben Ergebnisse auch für Hölderklassen mit β>1 zeigt. Nur die Denition von Vk , die den maximalen Bias misst, muss entsprechend angepasst werden. Unsere Idee zur Kalibrierung der kritischen Werte unter der Null ist inspiriert durch Spokoiny and Vial (2009). 6 Klassikation und Lerntheorie 6.1 Klassikation und Bayes-Klassizierer Häug müssen in der Statistik Entscheidungen zwischen zwei oder mehr Alternativen aufgrund komplexer Daten getroen werden. Dies führt auf sogenannte Klassikationsprobleme. Beispiele sind Spam-Filter (Klassikationen zwischen 'mit Sicherheit Spam', 'mit Sicherheit kein Spam' und Klassen dazwischen), medizinische Datenanalyse (wie EKG weist auf Krankheit x hin oder nicht) oder Schrifterkennung (ASCII-Code auf der Basis von Pixelmuster). Hier werden wir nur binäre Klassikation mit Klassen (Labels) '-1', '+1' betrachten. Für die Modellierung betrachte auf dem Stichprobenraum X (in der Regel Rd ) und der zugehörigen σ -Algebra Wahrscheinlichkeitsverteilungen P − und P + . Bei Vorliegen von Klasse '-1' beobachten wir eine Zufallsvariable X ∼ P − , bei Klasse '+1' jedoch X ∼ P + . Die a-priori-Wahrscheinlichkeit für Klasse '+1' sei π ∈ [0, 1], das heiÿt die Klasse Y werde gemäÿ π gezogen und ± für Y = ±1. Nach der Bayesformel folgt mit entsprechenden danach X ∼ P + − Dichten p , p bezüglich einem dominierenden Maÿ Q: η(x) := P (Y = +1 | X = x) = πp+ (x) . (1 − π)p− (x) + πp+ (x) Ziel der Klassikation ist es, bei einer Realisierung von X die Klasse Y so gut wie möglich vorherzusagen. 6.1 Denition. h : X → {−1, +1} heiÿt Klassizierer. Ihr Klassikationsfehler ist R(h) := P (Y 6= h(X)). Durch ( ( +1, falls η(x) > 1/2, +1, falls πp+ (x) > (1 − π)p− (x), ∗ h (x) = = −1, falls η(x) 6 1/2 −1, falls πp+ (x) 6 (1 − π)p− (x) Jede messbare Funktion 86 wird der Bayes-Klassizierer festgelegt. R∗ := R(h∗ ) heiÿt Bayesrisiko des Klassikationsproblems. Beachte, dass ein binäres Klassikationsproblem gerade einem Test entspricht und der Bayes-Klassizierer dem Bayestest, wenn die beiden möglichen Testfehler gleichen Verlust besitzen. 6.2 Lemma. Für jeden Klassizierer h gilt R(h) − R∗ = E[|2η(X) − 1|1(h(X) 6= h∗ (X))]. Insbesondere besitzt der Bayes-Klassizierer minimales Risiko. Darüberhinaus gilt R∗ = E[η(X) ∧ (1 − η(X))]. Beweis. Durch Bedingen und Einsetzen von η(x) erhalten wir P (Y 6= h(X) | X = x) = P (Y = 1 | X = x)1(h(x) = −1) + P (Y = −1 | X = x)1(h(x) = 1) = 1 − η(x) + (2η(x) − 1)1(h(x) = −1). 1(h∗ (x) = −1) = 1(2η(x) − 1 6 0), so dass insbesondere P (Y 6= h∗ (X) | X = x) = η(x) ∧ (1 − η(x)) und damit R∗ = E[η(X) ∧ (1 − η(X))] Nun gilt gilt. Weiterhin schlieÿen wir P (Y 6= h(X) | X = x) − P (Y 6= h∗ (X) | X = x) = (2η(x) − 1)(1(h(x) = −1) − 1(h∗ (x) = −1)) = |2η(x) − 1|1(h(x) 6= h∗ (x)). Integration bezüglich der Verteilung von X ergibt R(h)−R∗ = P (Y 6= h(X))−P (Y 6= h∗ (X)) = E[|2η(X)−1|1(h(X) 6= h∗ (X))]. Der letzte Ausdruck ist oensichtlich nicht-negativ. R∗ klassizieren, ∗ weshalb für Klassizierer h auch gerne nur das Exzessrisiko E(h) := R(h)−R Wir können also niemals besser als mit dem Bayesrisiko betrachtet wird. 6.2 Minimierung des empirischen Risikos In der Praxis sind P + , P − , π und η(x) nicht bekannt, der Bayes-Klassizierer dient nur als Orakel. Im folgenden wird von der Beobachtung einer ma- (Xi , Yi )i=1,...,n mit Xi ∈ X , Yi ∈ {−1, +1} ausgegangen, der Trainingsmenge. Ziel ist es, aus thematischen Stichprobe und (Xi , Yi ) ∼ P die- i.i.d. ser Beobachtung einen Klassizierer zu konstruieren, der dem Bayesrisiko (zur Klassenvorhersage bei einer neuen Beobachtung 87 (X, Y ) ∼ P ) möglichst nahe kommt. Dafür ist ein naheliegender Ansatz η(x) über einen Regres- sionsansatz nichtparametrisch zu schätzen und den Schätzer dann in den Bayes-Klassizierer einzusetzen. Dafür muss allerdings das viel komplexere Problem der Funktionsschätzung von dungsproblems {η(x) > 1/2} η(x) anstelle des einfacheren Entschei- gelöst werden. Dies ist numerisch häug sehr aufwändig und kann auch mathematisch suboptimal sein. Ein direkter Ansatz ist das Konzept der empirischen Risiko-Minimierung (ERM). 6.3 Denition. ningsmenge Das empirische Risiko eines Klassizierers h bei einer Trai(Xi , Yi )i=1,...,n ist gegeben durch n 1X Rn (h) := 1(Yi = 6 h(Xi )). n i=1 ĥERM aus einer Familie H von Klassizierern n Klassizierer, wenn Rn (ĥERM ) = minh∈H Rn (h) gilt. n Ein Klassizierer heiÿt ERM- Das Exzessrisiko des ERM-Klassizierers erlaubt eine Aufspaltung analog zur Bias-Varianz-Zerlegung R(ĥERM ) − R∗ = R(ĥERM ) − inf R(h) + inf R(h) − R∗ . n n h∈H h∈H {z } | {z } | stochastischer Fehler Je gröÿer die Familie H Approximationsfehler gewählt wird, desto kleiner ist der Approximations- fehler, desto gröÿer ist jedoch im Allgemeinen der stochastische Fehler. Wählt H als die Familie aller Klassizierer, so ist jedes h mit h(Xi ) = Yi und h(x) beliebig für x ∈ / {X1 , . . . , Xn } ein ERM-Klassizierer, was zu beliebig schlechtem Risko von h führen kann. man beispielsweise 6.4 Lemma. Der stochastische Fehler lässt folgende Abschätzung zu: R(ĥERM ) − inf R(h) 6 2 sup |Rn (h) − R(h)|. n h∈H Beweis. h∈H Nach Denition gilt für alle h0 ∈ H R(ĥERM ) 6 Rn (ĥERM ) + sup |Rn (h) − R(h)| n n h∈H 0 6 Rn (h ) + sup |Rn (h) − R(h)| h∈H 0 6 R(h ) + 2 sup |Rn (h) − R(h)|. h∈H Subtrahiere nun R(h0 ) auf beiden Seiten und bilde das Supremum über H. 88 h0 ∈ 6.5 Satz. Ist die Familie H = {h1 , . . . , hM } endlich, so gilt für jedes δ ∈ (0, 1) mit Wahrscheinlichkeit 1 − δ die Orakelungleichung q 8 R(ĥERM ) 6 min R(h ) + m n n log(2M/δ). 16m6M Beweis. Nach dem Lemma erhalten wir für t > 0 P R(ĥERM ) − min R(hm ) > t 6 P max |Rn (hm ) − R(hm )| > t/2 n 16m6M 16m6M M X 6 P (|Rn (hm ) − R(hm )| > t/2). m=1 P Rn (hm ) − R(hm ) = n1 ni=1 Zi mit Zi := 1(Yi 6= hm (Xi )) − E[1(Yi = 6 hm (Xi ))] ∈ [−1, 1] i.i.d., so können wir die Hoeding-Ungleichung Schreiben wir anwenden und erhalten M X 2 /8 P (|Rn (hm ) − R(hm )| > t/2) 6 2M e−nt . m=1 Damit liefert die Wahl 6.6 Bemerkung. t= q 8 n log(2M/δ) das Ergebnis. Eine schärfere Variante der Hoeding-Ungleichung ergibt auf der rechten Seite q 2 n log(2M/δ). Unter direkter Verwendung der expo- nentiellen Momente der Binomialverteilung von Rn (h) kann man auch eine Orakelungleichung im Erwartungswert erhalten: E[R(ĥERM )] 6 min R(hm ) + n 16m6M Für allgemeine, unendliche Familien H q log(2M ) 2n . kann man den stochastischen Fehler in natürlicher Weise mit der Theorie der empirischen Prozesse kon- Vapnik-ChervonenkisDimension der Familie H ein wichtiges Maÿ für die Komplexität von H. Wir trollieren. Hierbei ist insbesondere die sogenannte werden im folgenden nur eine spezielle Form der empirischen Risikominimierung betrachten, wo maÿgeschneiderte Methoden zum Einsatz kommen. 6.3 Support Vector Machines Aus numerischer Sicht ist die Minimierung des empirischen Risikos im Allgemeinen sehr schwierig, da Rn (h) nicht-konvex in h ist (potentiell NP- vollständiges Problem). Die erste Idee, die auf sogenannte Machines (SVM, Stützvektor-Methoden) Support Vector führt, ist es daher, ein verwandtes 1(Yi 6= h(Xi )) = 1(−Yi h(Xi ) > 0) konvexen Funktion ϕ : R → [0, ∞) ersetzt. konvexes Problem zu lösen. Dabei wird durch ϕ(−Yi h(Xi )) mit einer Wir werden im folgenden die in der Praxis am meisten verwendete Funktion ϕ(x) = (1 + x)+ (hinge loss) betrachten. Auÿerdem gehen wir von {−1, +1}wertigen zu reellwertigen Funktionen über. 89 6.7 Denition. Für eine konvexe Funktion F ⊆ {{ : X → R messbar} reellwertiger Funktionen setze für ϕ : R → [0, ∞) und eine Familie f ∈F Rϕ (f ) := E[ϕ(−Y f (X))] (ϕ-Risiko), n 1X Rn,ϕ (f ) := ϕ(−Yi f (Xi )) (empirisches ϕ-Risiko), n i=1 ( +1, falls f (x) > 0, hf (x) := (zu f assoziierter Klassizierer), −1, falls f (x) 6 0 fˆn,ϕ := argminf ∈F Rn,ϕ (f ) (verallg. ϕ-ERM-Klassizierer), ĥn,ϕ := hfˆn,ϕ (ϕ-ERM-Klassizierer). 6.8 Lemma. (1 + x)+ gilt Für den Bayes-Klassizierer h∗ und für hinge loss ϕ(x) = min f :X →R messbar Beweis. Rϕ (f ) = Rϕ (h∗ ) = 2R∗ . Durch Bedingen erhalten wir E[ϕ(−Y f (X)) | X = x] = (1 + f (x))+ (1 − η(x)) + (1 − f (x))+ η(x) > 2(η(x) ∧ (1 − η(x))), (1+A)+ +(1−A)+ > (1+A)+(1−A) = 2 verwendet haben. Es gilt f (x) = −1 im Fall η(x) < 1/2 bzw. f (x) = +1 ∗ im Fall η(x) > 1/2 erfüllt ist. Also minimiert der Bayesklassizierer h (x) ∗ ∗ diese bedingte Erwartung, und es folgt Rϕ (f ) > Rϕ (h ) = 2R . wobei wir Gleichheit genau dann, wenn Die zweite Idee, die SVMs attraktiv machen, ist ein allgemeiner Ansatz zur Wahl der Klassizierermenge. Er beruht auf einer Transformation der Daten (Xi ) in den sogenannten Feature-Raum mittels Kernen. Dazu sind mathematische Vorarbeiten nötig. 6.9 Denition. Eine Funktion für einen Hilbertraum W reproduzierender Kern Funktionen auf X , falls k : X ×X → R von reellwertigen heiÿt (a) ∀x ∈ X : k(x, •) ∈ W ; (b) ∀x ∈ X , f ∈ W : f (x) = hf, k(x, •)iW (Reproduktion). In diesem Fall heiÿt W auch RKHS (reproducing kernel Hilbert space). 6.10 Lemma.pEs kf kW supx∈X gilt hk(x, •), k(x0 , •)iW = k(x, x0 ) sowie supx∈X |f (x)| 6 k(x, x). 90 Beweis. Die erste Identität folgt aus der Reproduktion angewendet auf f (y) = k(x, y). hf, k(x0 , •)iW = f (x0 ) Daraus folgt die Abschätzung mit der Cauchy-Schwarz-Ungleichung: sup f (x)2 = sup hf, k(x, •)i2W 6 kf k2W sup kk(x, •)k2W = kf k2W sup k(x, x). x∈X x∈X x∈X x∈X 6.11 Beispiele. (a) Die (bezüglich Lebesguemaÿ) quadrat-integrierbaren Funktion bilden keinen RKHS, weil die Punktauswertungen tig bezüglich L2 L2 (X ) f 7→ f (x) nicht steL2 (X ) natürlich sind. Deshalb sind die Elemente von auch nur f.ü. festgelegt. (b) Bildet ϕ1 , . . . , ϕ K ein Orthonormalsystem bezüglich k(x, y) := K X ak ϕk (x)ϕk (y) für beliebige L2 (X ), so ist ak > 0 k=1 W = span(ϕ1 , . . . , ϕK ) ein reproduzierender Kern von K X hf, giW := bezüglich a−1 k hf, ϕk iL2 hg, ϕk iL2 . k=1 Dies folgt mit f ∈W sofort aus hf, k(x, •)iW = = K X a−1 k hf, ϕk iL2 k=1 K X K X al hϕl , ϕk iL2 ϕl (x) l=1 hf, ϕk iL2 ϕk (x) = f (x). k=1 = ∞) verallgek(x, y) wohldeniert ist. Ein wichtiges Beispiel dafür ist 1 2 −s die Fourierbasis (ϕk ) mit (ak ) ∈ ` , insbesondere führt ak = (1 + k ) s für s > 1/2 auf den RKHS W = Hper ([0, 1]). R1 0 2 Betrachte W = {f : [0, 1] → R | f (0) = 0, 0 f (x) dx < ∞}, wobei Dies lässt sich auf unendliche Reihenentwicklungen (K meinern, sofern (c) die Ableitung im schwachen Sinne existieren möge. Dies ist bezüglich hf, giW = hf 0 , g 0 iL2 W sowie ein Hilbertraum. Mit Z hf, k(x, •)iW = 1 k(x, y) = x ∧ y f 0 (y)1(y 6 x) dx = f (x). 0 91 gilt k(x, •) ∈ Also ist k ein reproduzierender Kern von W . Beachte nun, dass k(x, y) = E[Bx By ] gerade die Kovarianzfunktion der Brownschen Bewegung B ist und W gerade der Cameron-Martin-Raum aus der stochastischen Analysis. Im Sinne der stochastischen Integration gilt R R E[hf, BiW hg, BiW ] := E[ f 0 dB g 0 dB] = hf, giW . Allgemeiner führen zentrierte Gauÿprozesse auf X über die Kovarianzfunktion als Kern zu RKHS, die auch in der Theorie der Gauÿprozesse eine tragende Rolle spielen. k : X ×X → R, das heiÿt k(x, y) = k(y, x) und i,j=1 αi αj k(xi , xj ) > 0 mit Gleichheit nur für α1 = · · · = αn = 0 für alle x, y, xi ∈ X , αi ∈ R, n ∈ N. Betrachte W = span(k(x1 , •), . . . , k(xn , •)) für paarweise verschiedePn dann f (xj ) = ne x1 , . . . , xn ∈ X . Für f = i=1 αi k(xi , •) gilt P Pn n α k(x , x ) = hf, k(x , • )i , wenn man für f = j i j W i=1 i=1 αi k(xi , •), Pni Pn g = i=1 βi k(xi , •) deniert hf, giW := i,j=1 αi βj k(xi , xj ) = α> Kβ mit K = (k(xi , xj ))i,j=1,...,n . Auf diese Weise kann aus k und Punkten x1 , . . . , xn ein zugehöriger RKHS W erzeugt werden, was in den An- (d) Gegeben sei eine symmetrische, positiv-denite Funktion Pn wendungen von SVM der häugste Zugang ist. Populär ist der Gauÿ2 2 k(x, y) = e−|x−y| /γ mit γ > 0 geeignet, wo W gerade aus Linearkombinationen d-dimensionaler Gauÿscher Glockenfunktionen besteht. Der bilineare Kern k(x, y) = hx, yiRd führt geometrisch auf den Raum W der Abstandsfunktionen zu den Hyperebenen mit P Normalenvektoren i αi xi . Eine unendlich-dimensionale Version ergibt sich aus dem Integraloperator mit Kern k , wobei der Satz von Mercer aus der Funktionalanalysis gerade über die Eigenfunktionen sche Radialkern den Zusammenhang mit (b) herstellt. 6.12 Satz. (Darsteller-Eigenschaft) Es seien W ein RKHS bezüglich k : X × X → R, Φ : R → R streng monoton wachsend und G : Rn → R beliebig. Dann besitzt für x1 , . . . , xn ∈ X jede Lösung des Minimierungsproblems G(f (x1 ), . . . , f (xn )) + Φ(kf kW ) −→ min ! f ∈W Pn die Form f (x) = i=1 αi k(xi , x) mit αi ∈ R geeignet. Ist G konvex und nicht-negativ, so existiert für jedes λ > 0 eine eindeutige Lösung des Minimierungsproblems G(f (x1 ), . . . , f (xn )) + λkf k2W −→ min ! f ∈W Beweis. Betrachte V := span(k(x1 , •), . . . , k(xn , •)) und V ⊥ := {u ∈ W | ∀ v ∈ V : hu, viW = 0}. Dann gilt für u ∈ V ⊥ oenbar u(xi ) = hu, k(xi , •)iW = 0. Für jedes f = u + v ∈ W mit u ∈ V ⊥ , v ∈ V gilt also ∀ i = 1, . . . , n : f (xi ) = v(xi ), 92 kf k2W = kuk2W + kvk2W . f = u + v Lösung des Minimierungsproblems, so muss u = 0 gelten, weil andernfalls das Kriterium bei v kleiner ist als bei f . Dies zeigt f ∈ V und die erste Behauptung. Wenn G konvex und nicht-negativ ist, so trit dies auch auf f 7→ K(f ) := G(f (x1 ), . . . , f (xn )) + λkf k2W als Komposition und Summe konvexer Funk2 tionen zu. Darüberhinaus gilt für f ∈ W mit λkf kW > G(0, . . . , 0) natürlich K(f ) > K(0). Damit existieren fn ∈ W mit kfn kW 6 λ−1/2 G(0, . . . , 0)1/2 ⊥ und K(fn ) → minf ∈W K(f ). Die Zerlegung fn = un + vn mit un ∈ V , vn ∈ V zeigt wie oben vn → minf ∈W K(f ). Nun liegt aber (vn ) in dem kom−1/2 G(0, . . . , 0)1/2 }, pakten endlich-dimensionalen Ball {v ∈ V | kvn kW 6 λ und jeder Häufungspunkt von (vn ) löst das Minimierungsproblem. Wären f1 , f2 zwei verschiedene Lösungen des Minimierungsproblems, so würde für f¯ = 21 (f1 + f2 ) nach der Parallelogramm-Identität gelten Ist daher solch ein kf¯k2W = 14 (2kf1 k2W + 2kf2 k2W − kf1 − f2 k2W ) < 21 (kf1 k2W + kf2 k2W ). Wegen der Konvexität von G K(f¯) < 21 (K(f1 ) + K(f2 )) (K zur Minimalität bei f1 , f2 . Also ist folgte daraus ist sogar strikt konvex), im Widerspruch die Lösung eindeutig. 6.13 Denition. RKHS W und Für einen reproduzierenden Kern λ>0 k : X ×X → R eines setze n 1 X fˆnSV M := argminf ∈W,kf kW 6λ (1 − Yi f (Xi ))+ n i=1 M = h ĥSV n fˆnSV M den zugehörigen SVM-Klassizierer (support vector machine, Stützvektor-Klassizierer). Dann ergibt F = {f ∈ W | kf kW 6 λ} in einem λ > 0 als (verallgemeinerte) Klassiziererfamilie. Lagrange-Theorie ergibt sich dann als ϕ-ERM-Klassizierer für Für SVMs wählt man also einen Ball RKHS W Nach der λ0 > 0 auf X mit Radius geeignet fˆnSV M = argminf ∈W Rn,ϕ(λ) (f ) + λ0 kf k2W . Wie zuvor beim Schätzen erhalten wir den Klassizierer durch Minimierung eines penalisierten Datenfehlers, wobei λ bzw. λ0 die Rolle eines Glättungs- parameters spielt. Nach dem Darsteller-Satz G(f (X1 ), . . . , f (Xn )) dimensionales lässt sich wegen Rn,ϕ (f ) das zweite Minimierungsproblem nun als endlich- Problem Kern schreiben. Auÿerdem P nur in dem P 2 nach dem Lemma k i αi k(xi , •)kW = i,j αi αj k(xi , xj ), so dass Pn SV M ˆ fn = i=1 α̂i k(Xi , •) für die Koezienten α̂ = (α̂1 , . . . , α̂n ) gilt: α̂ = argminα∈Rn n 1 X n = i=1 1 − Yi n X gilt mit n X αj k(Xi , Xj ) + λ0 αi , αj k(Xi , Xj ) + j=1 93 i,j=1 Beachte, dass in dieser Charakterisierung der RKHS W nicht mehr erscheint und nur ein endlich-dimensionales Optimierungsproblem zu lösen ist. Betrachte nun I := {i = 1, . . . , n | Yi fˆnSV M (Xi ) 6 1}. Dann ist fˆnSV M auch Lösung des Minimierungsproblems 1 X n (1 − Yi f (Xi ))+ + λ0 kf k2W α̂i (Xi )i∈I die P fˆnSV M = i∈I α̂i k(Xi , •), so dass die gleich Null sind, die zu signikant korrekt klassizierten Yi fˆnSV M (Xi ) > 1 gehören. Es liegt SV M vor. Man nennt eine sparsame (sparse) Darstellung von fˆn Stützvektoren (support vectors). Beobachtungen also häug ˆ f ∈W ! −→ min i∈I Der Darstellersatz impliziert daher Koezienten (Xi , Yi ) im Sinne von Für die Interpretation ist es sinnvoll, das Minimierungsproblem weiter äquivalent umzuschreiben in n 1X 0 2 ˆ := argmin λ kf k + (fˆnSV M , ξ) ξi . n f ∈W,ξ∈[0,∞) ,∀i:Yi f (Xi )>1−ξi W n i=1 ξ ξˆi = (1 − Yi f (Xi ))+ ξi > (1 − Beachte, dass die Nebenbedingungen an sicherstellen, dass Yi f (Xi ))+ und damit die Äquivalenz mit gilt, so dass dem ursprünglichen Problem folgt. Werden alle (Xi , Yi ) signikant korrekt Yi fˆnSV M (Xi ) > 1, so folgt ξˆ = 0 und fˆnERM klassiziert im Sinne minimiert die Norm von kf kW f ∈ W . Das ist durch Umskalieren äquivalent dazu, bei gegebener Norm kf kW den sogenannten margin mini (Yi fˆnSV M (Xi )) zu maximieren. Diejenigen Beobachtungen (Xj ) mit Yj fˆnSV M (Xj ) = mini (Yi fˆnSV M (Xi )) sind gerade die Stützvektoren. Im AllSV M nicht alle Punkte korrekt klassizieren, was über den gemeinen wird fˆn 1 Pn Term i=1 ξi bestraft wird. Diese Penalisierung ist ein Maÿ für den Gen unter allen signikant korrekten Klassizierern samtabstand der allgemeinen Stützvektoren, das heiÿt der Punkte auf der falschen Seite des durch die korrekt klassizierten Punkte bestimmten margin. Im Vergleich zur linearen Diskriminanzanalyse, die auf empirischem Mittelwert und Kovarianzmatrix beruht, wird die Klassikation mit SVMs nicht durch alle Beobachtungen, sondern nur durch die kritischen Stützvektoren Kern-Trick erlaubt darin X , die jedoch im Fea- in der Nähe der Entscheidungsgrenze bestimmt. Der überhinaus eine nichtlineare Entscheidungsgrenze tureraum span(k(X1 , •), . . . , k(Xn , •)) linear ist. Wir werden nun eine Orakelungleichung für SVM beweisen. Damit erhalten wir eine Kontrolle des stochastischen Fehlers. Der Approximationsfehler ist stark vom betrachteten Problem und der Wahl des Kerns abhängig und wird nicht weiter abgeschätzt. Für eine allgemeine Theorie und eine Analyse der Wahl des Parameters λ > 0 sei auf Steinwart and Christmann (2008) verwiesen. 94 6.14 Satz. M im RKHS W bezüglich einem Für den SVM-Klassizierer ĥSV n Kern k , der supx∈X k(x, x) < ∞ erfülle, und mit Radius λ > 0 gilt M E[R(ĥSV )] 6 n inf kf kW 6λ Rϕ (f ) + 8λ E[k(X, X)]1/2 n−1/2 . Beweis. (a) Zunächst bemerken wir mit ϕ(x) = (1 + x)+ M R(ĥSV ) = P (X,Y ) (−Y fˆnSV M (X) > 0) 6 E(X,Y ) [(1−Y fˆnSV M (X))+ ] = Rϕ (fˆnSV M ). n Wir erhalten also M R(ĥSV ) 6 Rϕ (fˆnSV M ) − n inf kf kW 6λ Rϕ (f ) + inf kf kW 6λ Rϕ (f ). Nun gilt wiederum (Beweis wie oben): Rϕ (fˆnSV M ) − inf kf kW 6λ Rϕ (f ) 6 2 sup |Rn,ϕ (f ) − Rϕ (f )|. kf kW 6λ Wir müssen also nur noch zeigen: h i p sup |Rn,ϕ (f ) − Rϕ (f )| 6 4λ E[k(x, x)]/n. E kf kW 6λ (b) Wir verwenden ein Symmetrisierungs- und Kontraktionsargument, um (Xi0 , Yi0 )i=1,...,n eine PhantomStichprobe (ghost sample), das heiÿt, (Xi0 , Yi0 )i=1,...,n sei auf demselben Wahrscheinlichkeitsraum wie (Xi , Yi )i=1,...,n deniert, besitze die gleiche Verteilung, sei aber unabhängig von (Xi , Yi )i=1,...,n . Dann gilt nach Jensenscher Ungleichung und supt E[Zt ] 6 E[supt Zt ] das Supremum abzuschätzen. Dazu sei n 1 X i 0 0 E sup (ϕ(−Yi f (Xi )) − E[ϕ(−Yi f (Xi ))]) n kf kW 6λ i=1 n 1 X i h 0 0 6E sup (ϕ(−Yi f (Xi )) − ϕ(−Yi f (Xi ))) n kf kW 6λ h i=1 Weiterhin existiere eine Rademacherfolge ±1) = 1/2 (Xi , Yi )i=1,...,n ϕ(−Yi0 f (Xi0 ))) und und (σi ) unabhängig, (Xi0 , Yi0 )i=1,...,n ist. identisch verteilt 95 und (σi )i=1,...,n , die auch Nun sind damit also P (σi = unabhängig von ±(ϕ(−Yi f (Xi )) − ebenso verteilt wie σi (ϕ(−Yi f (Xi )) − ϕ(−Yi0 f (Xi0 ))). h i E sup |Rn,ϕ (f ) − Rϕ (f )| Dies zeigt kf kW 6λ n i 1 X 0 0 σi (ϕ(−Yi f (Xi )) − 1 + 1 − ϕ(−Yi f (Xi ))) 6E sup n kf kW 6λ i=1 n i 1 X h σi (ϕ(−Yi f (Xi )) − 1) . 6 2E sup kf kW 6λ n h i=1 Wir verwenden nun das Kontraktionsprinzip (Ledoux and Talagrand ψ : [−1, 1] → R eine Kontraktion, also |ψ(x) − ψ(y)| 6 |x − y| und ψ(0) = 0, so gilt für jede Familie G ⊆ {g : X × {−1, +1} → [−1, 1] messbar} 1991, Thm. 4.12): Ist n n i 1 X i 1 X h σi ψ(g(Xi , Yi )) 6 2 E sup σi g(Xi , Yi ) . E sup g∈G n g∈G n h i=1 i=1 kf kW 6 λ folgt nach dem Lemma kf k∞ 6 λ supx∈X k(x, x)1/2 =: L < ∞. Für ψ(u) = (ϕ(Lu) − 1)/L und g(x, y) = −yf (x)/L ∈ [−1, 1] Aus erhalten wir so h E n n 1 X 1 X h ϕ(−Yi f (Xi )) − 1 i Yi f (Xi ) i sup sup σi σi 6 2E , L L kf kW 6λ n kf kW 6λ n i=1 und die Konstante i=1 L hebt sich auf. Nun ist σi Yi wie σi verteilt, und wir haben insgesamt gezeigt n 1 X i i h E sup |Rn,ϕ (f ) − Rϕ (f )| 6 4 E sup σi f (Xi ) . kf kW 6λ kf kW 6λ n h i=1 (c) Schlieÿlich protieren wir noch von der Hilbertraumstruktur des RKHS, indem wir mit der Cauchy-Schwarz-Ungleichung abschätzen: n n 1 X 2 1 X 2 σi f (Xi ) = sup hf, σi k(Xi , •)iW sup n n kf kW 6λ kf kW 6λ i=1 i=1 n X sup 6 kf kW 6λ 1 = λ2 2 n 96 1 kf k2W n X i,j=1 n 2 σi k(Xi , •) i=1 σi σj k(Xi , Xj ). W Dies impliziert wegen h E E[σi σj ] = δi,j n n 1 X i h1 X i1/2 sup σi f (Xi ) 6 λ E 2 σi σj k(Xi , Xj ) n kf kW 6λ n i=1 i,j=1 p −1/2 = λn E[k(X, X)]. Zusammen mit den obigen Überlegungen ergibt dies die Behauptung. 6.15 Bemerkung. O(n−1/2 ) in n, die 1/2 kontrolliert. Komplexität der Klassiziererfamilie wird durch λ E[k(X, X)] Oensichtlich sollte der Radius λ so gewählt werden, dass ApproximationsDer Restterm ist von der Ordnung fehler und stochastischer Fehler sich in etwa austarieren. Eine adaptive Wahl von λ wird häug über ein Kreuzvalidierungskriterium getroen. 97 Literatur Brown, L. D., and M. G. Low (1996): Asymptotic equivalence of non- Ann. Stat., parametric regression and white noise., 24(6), 23842398. P., and S. van de Geer (2011): Statistics for highdimensional data. Methods, theory and applications. Springer Series in Bühlmann, Statistics. Berlin: Springer. De Boor, C. (2001): A practical guide to splines. Rev. ed. Applied Mathe- matical Sciences. 27. New York, NY: Springer. Efromovich, S. (1999): and applications. Nonparametric curve estimation. Methods, theory, Springer Series in Statistics. New York. Elstrodt, J. (2007): Maÿ- und Integrationstheorie. 5. Auage. Springer- Lehrbuch. Berlin: Springer. Fan, J., and cations. I. Gijbels (1996): Local polynomial modelling and its appli- Monographs on Statistics and Applied Probability. 66. London: Chapman & Hall. L., M. Kohler, A. Krzy»ak, and H. Walk (2002): A distribution-free theory of nonparametric regression. Springer Series in Sta- Györfi, tistics. New York, NY: Springer. Hall, P., and J. S. Marron (1987): Extent to which least-squares cross- validation minimises integrated square error in nonparametric density estimation., Probab. Theory Relat. Fields, Härdle, W. (1991): 74, 567581. Applied nonparametric regression. Econometric Society Monographs. 19. Cambridge: Cambridge University Press. Härdle, (1998): W., G. Kerkyacharian, D. Picard, and A. Tsybakov Wavelets, approximation, and statistical applications. Springer, Berlin. and The elements of statistical learning. Data mining, inference, and prediction. Springer Series Hastie, T., R. Tibshirani, J. Friedman (2001): in Statistics. New York, NY: Springer. Houdré, C., and P. Reynaud-Bouret (2003): Exponential inequalities, with constants, for U-statistics of order two., Giné, Evariste (ed.) et al., Stochastic inequalities and applications. Selected papers presented at the Euroconference on Stochastic inequalities and their applications", Barcelona, June 1822, 2002. Basel: Birkhäuser. Prog. Probab. 56, 55-69 (2003). 98 Ledoux, M., and M. Talagrand (1991): Isoperimetry and processes. Probability in Banach spaces. Ergebnisse der Mathematik und ihrer Grenz- gebiete. 3. Folge, 23. Berlin etc.: Springer-Verlag. Lehmann, E., ed. and G. Casella (1998): Theory of point estimation. 2nd Springer Texts in Statistics. New York, NY: Springer. Lepski, O. V. (1990): One problem of adaptive estimation in Gaussian Theory Probab. Appl., white noise., 35, 459470. Concentration inequalities and model selection. Ecole d'Eté de Probabilités de Saint-Flour XXXIII 2003. Lecture Notes in Massart, P. (2007): Mathematics 1896. Berlin: Springer. Wavelet methods in statistics with R. Nason, G. P. (2008): Use R!. New York, NY: Springer. Silverman, B. (1986): Density estimation for statistics and data analysis. Monographs on Statistics and Applied Probability. London - New York: Chapman and Hall. Spokoiny, V., and C. Vial (2009): Parameter tuning in pointwise adap- tation using a propagation approach., Steinwart, I., and Ann. Stat., A. Christmann (2008): 37(5b), 27832807. Support vector machines. In- formation Science and Statistics. New York, NY: Springer. Stone, C. J. (1984): An asymptotically optimal window selection rule for kernel density estimates., Tsybakov, A. B. (2004): Ann. Stat., 12, 12851297. Introduction à l'estimation non-paramétrique. Mathématiques & Applications (Paris). 41. Paris: Springer. (2009): Introduction to nonparametric estimation. Springer Series in Statistics. Wand, M., and M. Jones (1995): Kernel smoothing. Monographs on Sta- tistics and Applied Probability. 60. London: Chapman & Hall. Wasserman, L. (2006): All of nonparametric statistics. Springer Texts in Statistics. New York, Springer. Werner, D. (2007): Funktionalanalysis. 6. Auage. Springer-Lehrbuch. Berlin: Springer. Wojtaszczyk, P. (1997): A mathematical introduction to wavelets. London Mathematical Society Student Texts. 37. Cambridge University Press. 99