Pruning von Entscheidungsbäumen
Transcription
Pruning von Entscheidungsbäumen
Pruning von Entscheidungsbäumen Missklassifikationskosten beim Splitting Während des Aufbaus eines Entscheidungsbaumes waren alle inneren Knoten einmal Blätter. Wie sahen dort die Missklassifikationskosten aus? Lemma 1 Für jeden Split eines Knotens t in die Knoten tL und tR in einem Entscheidungsbaum gilt R(t) ≥ R(tL) + R(tR ) mit Gleichheit im Fall j ∗ (t) = j ∗(tL) = j ∗(tR ). Beweisidee R(t) = = min i∈{1,...,J} j∈{1,...,J} cost(j ∗(t)|j) · p(j, t) j∈{1,...,J} cost(j ∗ (t)|j) · (p(j, tL) + p(j, tR )) j∈{1,...,J} R(t) − R(tL) − R(tR ) = + j∈{1,...,J} Classification and Regression Trees cost(j ∗(t)|j) · (p(j, tL) − min i∈{1,...,J} j∈{1,...,J} VII-39 cost(i|j) · p(j|t) · p(t) = cost(i|j) · p(j, tL ) j∈{1,...,J} ∗ cost(j (t)|j) · (p(j, tR ) − min i∈{1,...,J} cost(i|j) · p(j, tR ) j∈{1,...,J} c LETTMANN 2006 Pruning von Entscheidungsbäumen Problem: Resubstitutionsfehler sind zu optimistisch! ts R (T) R(T) Anzahl Endknoten K K VII-40 Der Resubstitutionsfehler R(T ) für den Entscheidungsbaum T fällt monoton auf 0. Wann wird der Wert 0 erreicht? Wo ist R(T ) am genauesten in Bezug auf R∗(T ) ? Die Missklassifikationsrate Rts(T ) auf einer Testmenge hat ein lokales Minimum, häufig bei relativ geringer Blattzahl. Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Pruning statt Stopping VII-41 K Abbruch des Splitting mit kleinem β führt zu übergroßen Entscheidungsbäumen. K Abbruch des Splitting mit großem β kann nützliche Splits verhindern. Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Pruning statt Stopping K Abbruch des Splitting mit kleinem β führt zu übergroßen Entscheidungsbäumen. K Abbruch des Splitting mit großem β kann nützliche Splits verhindern. § Bilde einen ausreichend großen Entscheidungsbaum Tmax und beschneide Tmax „auf die richtige Weise“ von Blättern in Richtung Wurzel. § Benutze bessere Schätzer für R∗(T ), um die richtige Größe des Entscheidungsbaumes zu bestimmen. VII-42 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Wann ist Tmax groß genug? Aufbau von Tmax ist beendet, wenn jeder Blattknoten K eine genügend kleine Teilmenge der Lernmenge L repräsentiert oder K nur Beispiele einer Klasse repräsentiert (Knoten ist pur) oder K nur Beispiele mit identischen Merkmalsvektoren repräsentiert. § Optimal für Tmax : „genügend klein“ ⇔ N (t) = 1 § Kompromiß für Tmax : „genügend klein“ ⇔ N (t) ≤ Nmin , z.B. Nmin = 5 VII-43 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Terminologie für Teilbäume Baum T mit Knoten t, Zweig Tt , Resultat des Pruning von Tt T t Tt t T \T t t (Vorgänger, Nachfolger wie üblich) Bezeichnungen: {t} bezeichnet den Teilbaum mit Wurzel t, für Tt bezeichnet R(Tt) = den Anteil der Missklassifikationskosten. VII-44 Classification and Regression Trees t ∈Tt R(t ) c LETTMANN 2006 Pruning von Entscheidungsbäumen Definition 2 (Pruning) Für einen Baum T mit innerem Knoten t besteht das Pruning des Zweiges Tt aus der Entfernung aller Nachfolgerknoten von t und der durch diese Elimination betroffenen Kanten. Der so beschnittene Baum wird mit T \ Tt bezeichnet. Der Knoten t ist in T \ Tt ein Blattknoten. Definition 3 (Pruning-induzierte Ordnung) Entsteht ein Baum T durch (mehrfaches) Pruning aus einem Baum T , schreiben wir kurz T T . Die Relation bildet eine Halbordnung auf der Menge der Bäume. § Ansatz: Nutze R(T ) für die Konstruktion von Kandidaten-Teilbäumen durch Pruning ausgehend von Tmax . Suche nach dem besten Teilbaum mit Hilfe eines besseren Maßes als R(T ). VII-45 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Konstruktion von Kandidaten durch Pruning Einfache Idee: VII-46 K Teile die von Tmax aus durch Pruning erreichbaren Teilbäume auf Teilmengen auf nach der Anzahl ihrer Blätter. K Wähle aus den Teilmengen jeweils einen Teilbaum mit minimalem Wert für R(T ) als Kandidaten. Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Konstruktion von Kandidaten durch Pruning Einfache Idee: K Teile die von Tmax aus durch Pruning erreichbaren Teilbäume auf Teilmengen auf nach der Anzahl ihrer Blätter. K Wähle aus den Teilmengen jeweils einen Teilbaum mit minimalem Wert für R(T ) als Kandidaten. Problematik: K VII-47 Kandidaten-Teilbäume sind nicht angeordnet bzgl. „“. Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Konstruktion von Kandidaten durch Pruning Einfache Idee: K Teile die von Tmax aus durch Pruning erreichbaren Teilbäume auf Teilmengen auf nach der Anzahl ihrer Blätter. K Wähle aus den Teilmengen jeweils einen Teilbaum mit minimalem Wert für R(T ) als Kandidaten. Problematik: VII-48 K Kandidaten-Teilbäume sind nicht angeordnet bzgl. „“. K Kandidaten-Teilbäume entstehen meist nicht durch wiederholtes Pruning von Tmax . Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Minimal Cost-Complexity Pruning Definition 4 Für einen Baum T bezeichnen wir |T|, die Anzahl der Blattknoten, als Komplexität (complexity) von T . Das Maß Rα(T ) := R(T ) + α|T| mit dem Komplexitätsparameter α ∈ R, α ≥ 0 bezeichnen wir als Kostenkomplexität von T . VII-49 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Minimal Cost-Complexity Pruning Definition 5 Für einen Baum T bezeichnen wir |T|, die Anzahl der Blattknoten, als Komplexität (complexity) von T . Das Maß Rα(T ) := R(T ) + α|T| mit dem Komplexitätsparameter α ∈ R, α ≥ 0 bezeichnen wir als Kostenkomplexität von T . Definition 6 Ausgehend von einem Baum Tmax und einem Komplexitätsparameter α ∈ R, α ≥ 0 bezeichnen wir einen Baum T (α) Tmax als kleinsten minimierenden Teilbaum, wenn er folgende Bedingungen erfüllt: 1. Rα (T (α)) = minT Tmax Rα (T ) 2. Falls für einen Teilbaum T Tmax gilt Rα (T (α)) = Rα (T ), so folgt T (α) T . VII-50 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Minimal Cost-Complexity Pruning Lemma 2 Für jeden Baum T und jeden Komplexitätsparameter α ∈ R, α ≥ 0 existiert ein kleinster minimierender Teilbaum T (α) T . Beweisidee Induktion für Rα (T (α)) = min{Rα(t), Rα(TL,t (α)) + Rα (TR,t(α))} mit t Wurzel von T . VII-51 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Minimal Cost-Complexity Pruning Lemma 3 Für jeden Baum T und jeden Komplexitätsparameter α ∈ R, α ≥ 0 existiert ein kleinster minimierender Teilbaum T (α) T . Beweisidee Induktion für Rα (T (α)) = min{Rα(t), Rα(TL,t (α)) + Rα (TR,t(α))} mit t Wurzel von T . Beobachtung: T1 T max T2 T3 T4 T5 0 T6 {t} α Müssen alle Werte für α durchlaufen werden? Sind die Teilbäume geordnet? VII-52 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Weakest Link Pruning 1. Bestimmung von T1 = T (α1) mit α1 = 0 ausgehend von Tmax Wegen R(T1) = R(Tmax ) und R(t) ≥ R(tL) + R(tR ) für jeden inneren Knoten t von Tmax mit Nachfolgern tL und tR schneiden wir alle Blätter tL und tR ab, für die mit ihrem Vorgänger t gilt R(t) = R(tL) + R(tR ). VII-53 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Weakest Link Pruning (Forts.) 2. Bestimmung von Tk+1 ausgehend von Tk Für jeden inneren Knoten t von Tk gilt R(t) > R(Tt ). Setzt man Rα ({t}) := R(t) + α und Rα (Tt) := R(Tt ) + α · |Tt | so gilt Rα(Tt ) < Rα ({t}) für genügend kleine Werte für α. Setze gk (t) := R(t)−R(Tt ) |Tt |−1 +∞ für t innerer Knoten von Tk für t Blattknoten von Tk und αk+1 := mint∈Tk gk (t). Die Knoten tk ∈ argmint∈Tk gk (t) bezeichnet man als schwächste Knoten (weakest links) in Tk . Durch Pruning aller dieser Zweige Ttk (weakest link pruning) erhalten wir Tk+1. VII-54 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Weakest Link Pruning (Forts.) Satz 1 Die durch das Weakest Link Pruning erhaltene endliche Folge (αk ) ist streng monoton wachsend, d.h. für alle k αk < αk+1 und es gilt T (α) = T (αk ) = Tk für alle k und αk ≤ α < αk+1 sowie T1 T2 T3 T4 . . . {t} VII-55 Classification and Regression Trees mit t Wurzel von Tmax . c LETTMANN 2006 Pruning von Entscheidungsbäumen Weakest Link Pruning (Forts.) Satz 2 Die durch das Weakest Link Pruning erhaltene endliche Folge (αk ) ist streng monoton wachsend, d.h. für alle k αk < αk+1 und es gilt T (α) = T (αk ) = Tk für alle k und αk ≤ α < αk+1 sowie T1 T2 T3 T4 . . . {t} mit t Wurzel von Tmax . Was fehlt noch? VII-56 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Weakest Link Pruning (Forts.) Satz 3 Die durch das Weakest Link Pruning erhaltene endliche Folge (αk ) ist streng monoton wachsend, d.h. für alle k αk < αk+1 und es gilt T (α) = T (αk ) = Tk für alle k und αk ≤ α < αk+1 sowie T1 T2 T3 T4 . . . {t} mit t Wurzel von Tmax . Was fehlt noch? Bewertung der Teilbäume Tk zur Bestimmung des „besten“ bzgl. Missklassifikationskosten. Gesucht ist geeigneter Schätzer der „wahren“ Missklassifikationskosten R∗(Tk ). VII-57 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Definition 7 (Missklassifikationskosten für Klassifizierer) Es sei P ein Wahrscheinlichkeitsmaß auf X × C und c ein gelernter Klassifizierer für c, L und x0 wie in Folie VII-9 beschrieben. K Die Wahrscheinlichkeit, dass ein Beispiel aus Klasse j durch c als Klasse i Objekt klassifiziert wird, sei c = j) Q∗(i|j) := P (c(x0) = i| K Die erwarteteten Missklassifikationskosten für Klasse j Beispiele seien ∗ R (j) = cost(i|j) · Q∗(i|j) i∈{1,...,J} K Die erwarteteten Missklassifikationskosten für den Klassifikator c seien ∗ R (c) = π(j) · R∗(j) j∈{1,...,J} Auswertung einer Menge von Testbeispielen und Kreuzvalidierung liefern Schätzer für R∗(c). VII-58 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Schätzung durch Testmenge 1. Bestimme zufällig eine Teilmenge L2 von L mit N (L2) Elementen. 2. Verwende L1 := L \ L2 als Lernmenge zum Aufbau des Entscheidungsbaumes Tmax und zur Bestimmung der Sequenz T1 T2 T3 T4 . . . {t} der Teilbäume durch Weakest Link Pruning. 3. Bestimme für L2 als Testmenge die Missklassifikationskosten Rts(Tk ) für Tk : ts Rts (Tk ) := j∈{1,...,J} π(j) · R (j) ts = π(j) · j∈{1,...,J} i∈{1,...,J} cost(i|j) · Q (i|j) Nij (L2 ) = π(j) · j∈{1,...,J} i∈{1,...,J} cost(i|j) · Nj (L2 ) mit π(j) = Nj (L2)/N (L2 ), falls nicht anders vorgegeben, und Nj (L2) als Klasse j Beispielanzahl in L2 und Nij (L2) als Anzahl der durch Tk als Klasse i klassifizierten Beispiele darunter. 4. Wähle den Baum Tk0 mit Rts (Tk0 ) = min Rts(Tk ) k VII-59 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Schätzung durch Kreuzvalidierung 1. Bestimme zufällig eine Aufteilung in V disjunkte Teilmengen L1, . . . , LV , z.B. V = 10. 2. Verwende Lv := L \ Lv und L als Lernmenge zum Aufbau der Entscheidungsbäume Tmax,v und Tmax sowie zur Bestimmung der Sequenzen T1,v T2,v T3,v . . . {t, v} und T1 T2 T3 . . . {t} der Teilbäume durch Weakest Link Pruning. VII-60 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Schätzung durch Kreuzvalidierung 1. Bestimme zufällig eine Aufteilung in V disjunkte Teilmengen L1, . . . , LV , z.B. V = 10. 2. Verwende Lv := L \ Lv und L als Lernmenge zum Aufbau der Entscheidungsbäume Tmax,v und Tmax sowie zur Bestimmung der Sequenzen T1,v T2,v T3,v . . . {t, v} und T1 T2 T3 . . . {t} der Teilbäume durch Weakest Link Pruning. Problem: Die Sequenzen der αk,v passen nicht zusammen! § Betrachte die Bäume Tv (α) und beachte Tv (α) = Tk,v für αk,v ≤ α < αk+1,v . VII-61 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Schätzung durch Kreuzvalidierung (Forts.) Sequenzen der αk,v durch verschiedene Testmengen Lv : ... ... 10 4 3 2 1 0 VII-62 Classification and Regression Trees α c LETTMANN 2006 Pruning von Entscheidungsbäumen Schätzung durch Kreuzvalidierung (Forts.) 1. Bestimme zufällig eine Aufteilung in V disjunkte Teilmengen L1, . . . , LV , z.B. V = 10. 2. Verwende Lv := L \ Lv und L als Lernmenge zum Aufbau der Entscheidungsbäume Tmax,v und Tmax sowie zur Bestimmung der Sequenzen T1,v T2,v T3,v . . . {t, v} und T1 T2 T3 . . . {t} der Teilbäume durch Weakest Link Pruning. 3. Für einen Wert α bestimme für Lv als Testmenge die Missklassifikationskosten Rcv (T (α)): cv cv R (T (α)) := j∈{1,...,J} π(j) · R (j) cv = π(j) · j∈{1,...,J} i∈{1,...,J} cost(i|j) · Q (i|j) v Nij (Lv ) = j∈{1,...,J} π(j) · i∈{1,...,J} cost(i|j) · Nj (L) mit π(j) = Nj (L)/N (L), falls nicht anders vorgegeben, und Nj (L) als Klasse j Beispielanzahl in L und Nij (Lv ) als Anzahl der durch Tv (α) als Klasse i klassifizierten Beispiele darunter. VII-63 Classification and Regression Trees c LETTMANN 2006 Pruning von Entscheidungsbäumen Schätzung durch Kreuzvalidierung (Forts.) 4. Für αk ≤ α < αk+1 sei αk := √ αk · αk+1 geometrisches Mittel 5. Bestimme Rcv (Tk ) := Rcv (T (αk )) 6. Wähle den Baum Tk0 mit Rcv (Tk0 ) = min Rcv (Tk ) k VII-64 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Wiederholung K Setze i(t) = φ(p(1|t), . . . , p(J|t)) mit einer Impurity-Funktion phi und sei die Impurity eines Baumes T I(T ) = I(t) = i(t) · p(t) t∈T K t∈T Wähle für einen Blattknoten t einen Split, der I(T ) am stärksten reduziert bzw. ∆i(s, t) maximiert mit ∆i(s, t) = i(t) − pL(s, t) · i(tL) − pR(s, t) · i(tR ) = I(t) − I(tL) − I(tR ) K Missklassifikationsrate läßt sich als Impurity-Funktion verwenden: i(t) := r(t) = 1 − max p(j|t) j∈{1,...,J Unit-Kosten mit φ(p1, . . . , pJ ) = 1 − maxj pj . K Dieses φ erfüllt alle bisher aufgestellten Kriterien und es gilt R(t) ≥ R(tL) + R(tR ) mit Gleichheit im Fall j ∗(t) = j ∗ (tL) = j ∗ (tR). VII-65 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Missklassifikationsrate für Splitting K Problem 1: i(t) = 0 für alle Split-Kriterien möglich. K Problem 2: Pure Knoten werden nicht ausreichend bevorzugt. Kl. 1: 400; Kl. 2:400 1:300; 2:100 1:100; 2:300 Kl. 1: 400; Kl. 2:400 1:200; 2:400 1:200; 2:0 Lokale Optimierung der Missklassifikationsrate führt zu schlechten Ergebnissen. VII-66 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Impurity-Funktionen für den 2-Klassen-Fall K Impurity-Funktionen φ müssen folgende Anforderungen erfüllen: (a) φ(0) = φ(1) = 0 Minimalität im puren Fall (b) φ(p1) = φ(1 − p1) Symmetrie (c) Bisher zusätzlich φ(0.5) = maxp1 ∈[0,1] φ(p1) φ 0 K 0.5 1 Änderung der Anforderungen: (c’) φ 2-mal stetig diefferenzierbar und φ (p1) < 0 für 0 < p1 < 1. VII-67 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Impurity-Funktionen für den 2-Klassen-Fall K Impurity-Funktionen φ müssen folgende Anforderungen erfüllen: (a) φ(0) = φ(1) = 0 Minimalität im puren Fall (b) φ(p1) = φ(1 − p1) Symmetrie (c) Bisher zusätzlich φ(0.5) = maxp1 ∈[0,1] φ(p1) φ 0 K 0.5 1 Änderung der Anforderungen: (c’) φ 2-mal stetig diefferenzierbar und φ (p1) < 0 für 0 < p1 < 1. VII-68 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Impurity-Funktionen für den 2-Klassen-Fall Lemma 4 Für eine Impurity-Funktion φ mit den Eigenschaften (a), (b) und (c’) folgt, dass für jeden Knoten t und jeden Split s gilt ∆i(s, t) ≥ 0 mit Gleichheit nur genau im Fall p(j|tL) = p(j|tR) = p(j|t) für j = 1, 2. VII-69 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Impurity-Funktionen für den 2-Klassen-Fall Einfachstes Polynom Eigenschaften (a), (b) und (c’) hat Grad 2 φ(x) = a + bx + cx2 Dies liefert die Knoten-Impurity i(t) = p(1|t) · p(2|t) Das Kriterium i(t) = −p(1|t) log p(1|t) − p(2|t) log p(2|t) erfüllt ebenfalls die Eigenschaften (a), (b) und (c’). VII-70 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Impurity-Funktionen für den allgemeinen Fall: Gini-Kriterium iGini (t) = p(j|t) · p(i|t) i,j∈{1,...,J} i=j VII-71 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Impurity-Funktionen für den allgemeinen Fall: Gini-Kriterium iGini (t) = p(j|t) · p(i|t) i,j∈{1,...,J} i=j Es gilt offenbar ⎛ iGini (t) = ⎝ j∈{1,...,J} ⎞2 p(j|t)⎠ − 2 (p(j|t)) = 1 − j∈{1,...,J} (p(j|t))2 j∈{1,...,J} Da die Funktion φ ein Polynom zweiten Grades ist, gilt weiter ∆i(s, t) ≥ 0 mit Gleichheit nur genau im Fall p(j|tL) = p(j|tR) = p(j|t) für j = 1, . . . , J. VII-72 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Impurity-Funktionen für den allgemeinen Fall: Twoing-Kriterium 1. Teile die Klassen in zwei Mengen (Superklassen) auf: C1 := {j1, . . . , jn}, C2 := C \ C1 2. Bestimme ∆i(s, t, C1) := ∆i(s, t) mit festem C1 für jeden Split s wie für ein 2-Klassen-Problem. 3. Bestimme den Split s∗(C1), der ∆i(s, t, C1) maximiert. 4. Bestimme das Subset C1, das ∆i(s∗(C1), t, C1) maximiert. VII-73 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Impurity-Funktionen für den allgemeinen Fall: Twoing-Kriterium 1. Teile die Klassen in zwei Mengen (Superklassen) auf: C1 := {j1, . . . , jn}, C2 := C \ C1 2. Bestimme ∆i(s, t, C1) := ∆i(s, t) mit festem C1 für jeden Split s wie für ein 2-Klassen-Problem. 3. Bestimme den Split s∗(C1), der ∆i(s, t, C1) maximiert. 4. Bestimme das Subset C1, das ∆i(s∗(C1), t, C1) maximiert. Bestimmung von Klassenähnlichkeiten: Klassen werden aufgeteilt in zwei Teilmengen, die in irgendeiner Weise möglichst „unähnlich“ sind. Strategische Splits: Wurzelbereich - Zusammenfassung von Klassen mit großen Ähnlichkeiten Blattbereich - Abspaltung einzelner Klassen VII-74 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Satz 4 Bei Verwendung des 2-Klassen-Kriterium p(1|t) · p(2|t) gilt, dass für einen Split s die Superklasse C1(s) := {j : p(j|tL) ≥ p(j|tR)} maximiert ∆i(s, t, C1) und es gilt ⎡ ⎤2 p L · p R ⎣ max ∆i(s, t, C1) = |p(j|tL) − p(j|tR)|⎦ C1 4 j VII-75 Classification and Regression Trees c LETTMANN 2006 Splitting-Kriterien Satz 5 Bei Verwendung des 2-Klassen-Kriterium p(1|t) · p(2|t) gilt, dass für einen Split s die Superklasse C1(s) := {j : p(j|tL) ≥ p(j|tR)} maximiert ∆i(s, t, C1) und es gilt ⎡ ⎤2 p L · p R ⎣ max ∆i(s, t, C1) = |p(j|tL) − p(j|tR)|⎦ C1 4 j Korollar 1 Für Knoten t und Splits s von t in tL und tR sei das Twoing-Kriterium definiert durch ⎡ ⎤2 pL · pR ⎣ |p(j|tL) − p(j|tR)|⎦ φ(s, t) := 4 j Dann ist der beste Twoing-Split s∗(C1∗) der Split s∗, der φ(s, t) maximiert und es gilt C1∗ = {j : p(j|t∗L) ≥ p(j|t∗R )} mit t∗L, t∗R als Nachfolgerknoten für den Split s∗. VII-76 Classification and Regression Trees c LETTMANN 2006 Erweiterungen VII-77 K Berücksichtigung von Missklassifikationskosten beim Split K Surrogate Splits für fehlende Merkmalwerte K Linearkombinationen von Merkmalen K Regression Trees Classification and Regression Trees c LETTMANN 2006