Pruning von Entscheidungsbäumen

Transcription

Pruning von Entscheidungsbäumen
Pruning von Entscheidungsbäumen
Missklassifikationskosten beim Splitting
Während des Aufbaus eines Entscheidungsbaumes waren alle inneren Knoten
einmal Blätter. Wie sahen dort die Missklassifikationskosten aus?
Lemma 1
Für jeden Split eines Knotens t in die Knoten tL und tR in einem
Entscheidungsbaum gilt
R(t) ≥ R(tL) + R(tR )
mit Gleichheit im Fall j ∗ (t) = j ∗(tL) = j ∗(tR ).
Beweisidee
R(t) =
=
min
i∈{1,...,J}
j∈{1,...,J}
cost(j ∗(t)|j) · p(j, t)
j∈{1,...,J}
cost(j ∗ (t)|j) · (p(j, tL) + p(j, tR ))
j∈{1,...,J}
R(t) − R(tL) − R(tR ) =
+
j∈{1,...,J}
Classification and Regression Trees
cost(j ∗(t)|j) · (p(j, tL) − min
i∈{1,...,J}
j∈{1,...,J}
VII-39
cost(i|j) · p(j|t) · p(t) =
cost(i|j) · p(j, tL )
j∈{1,...,J}
∗
cost(j (t)|j) · (p(j, tR ) − min
i∈{1,...,J}
cost(i|j) · p(j, tR )
j∈{1,...,J}
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Problem: Resubstitutionsfehler sind zu optimistisch!
ts
R (T)
R(T)
Anzahl Endknoten
K
K
VII-40
Der Resubstitutionsfehler R(T ) für den Entscheidungsbaum T fällt monoton
auf 0.
Wann wird der Wert 0 erreicht?
Wo ist R(T ) am genauesten in Bezug auf R∗(T ) ?
Die Missklassifikationsrate Rts(T ) auf einer Testmenge hat ein lokales
Minimum, häufig bei relativ geringer Blattzahl.
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Pruning statt Stopping
VII-41
K
Abbruch des Splitting mit kleinem β führt zu übergroßen
Entscheidungsbäumen.
K
Abbruch des Splitting mit großem β kann nützliche Splits verhindern.
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Pruning statt Stopping
K
Abbruch des Splitting mit kleinem β führt zu übergroßen
Entscheidungsbäumen.
K
Abbruch des Splitting mit großem β kann nützliche Splits verhindern.
§ Bilde einen ausreichend großen Entscheidungsbaum Tmax und
beschneide Tmax „auf die richtige Weise“ von Blättern in Richtung Wurzel.
§ Benutze bessere Schätzer für R∗(T ), um die richtige Größe des
Entscheidungsbaumes zu bestimmen.
VII-42
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Wann ist Tmax groß genug?
Aufbau von Tmax ist beendet, wenn jeder Blattknoten
K
eine genügend kleine Teilmenge der Lernmenge L repräsentiert oder
K
nur Beispiele einer Klasse repräsentiert (Knoten ist pur) oder
K
nur Beispiele mit identischen Merkmalsvektoren repräsentiert.
§ Optimal für Tmax : „genügend klein“ ⇔ N (t) = 1
§ Kompromiß für Tmax : „genügend klein“ ⇔ N (t) ≤ Nmin , z.B. Nmin = 5
VII-43
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Terminologie für Teilbäume
Baum T mit Knoten t, Zweig Tt , Resultat des Pruning von Tt
T
t
Tt
t
T \T t
t
(Vorgänger, Nachfolger wie üblich)
Bezeichnungen:
{t} bezeichnet den Teilbaum mit Wurzel t, für Tt bezeichnet R(Tt) =
den Anteil der Missklassifikationskosten.
VII-44
Classification and Regression Trees
t ∈Tt
R(t )
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Definition 2 (Pruning)
Für einen Baum T mit innerem Knoten t besteht das Pruning des Zweiges Tt aus
der Entfernung aller Nachfolgerknoten von t und der durch diese Elimination
betroffenen Kanten. Der so beschnittene Baum wird mit T \ Tt bezeichnet. Der
Knoten t ist in T \ Tt ein Blattknoten.
Definition 3 (Pruning-induzierte Ordnung)
Entsteht ein Baum T durch (mehrfaches) Pruning aus einem Baum T , schreiben
wir kurz T T . Die Relation bildet eine Halbordnung auf der Menge der
Bäume.
§ Ansatz:
Nutze R(T ) für die Konstruktion von Kandidaten-Teilbäumen durch Pruning
ausgehend von Tmax .
Suche nach dem besten Teilbaum mit Hilfe eines besseren Maßes als R(T ).
VII-45
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Konstruktion von Kandidaten durch Pruning
Einfache Idee:
VII-46
K
Teile die von Tmax aus durch Pruning erreichbaren Teilbäume auf
Teilmengen auf nach der Anzahl ihrer Blätter.
K
Wähle aus den Teilmengen jeweils einen Teilbaum mit minimalem Wert für
R(T ) als Kandidaten.
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Konstruktion von Kandidaten durch Pruning
Einfache Idee:
K
Teile die von Tmax aus durch Pruning erreichbaren Teilbäume auf
Teilmengen auf nach der Anzahl ihrer Blätter.
K
Wähle aus den Teilmengen jeweils einen Teilbaum mit minimalem Wert für
R(T ) als Kandidaten.
Problematik:
K
VII-47
Kandidaten-Teilbäume sind nicht angeordnet bzgl. „“.
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Konstruktion von Kandidaten durch Pruning
Einfache Idee:
K
Teile die von Tmax aus durch Pruning erreichbaren Teilbäume auf
Teilmengen auf nach der Anzahl ihrer Blätter.
K
Wähle aus den Teilmengen jeweils einen Teilbaum mit minimalem Wert für
R(T ) als Kandidaten.
Problematik:
VII-48
K
Kandidaten-Teilbäume sind nicht angeordnet bzgl. „“.
K
Kandidaten-Teilbäume entstehen meist nicht durch wiederholtes Pruning
von Tmax .
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Minimal Cost-Complexity Pruning
Definition 4
Für einen Baum T bezeichnen wir |T|, die Anzahl der Blattknoten, als Komplexität
(complexity) von T .
Das Maß
Rα(T ) := R(T ) + α|T|
mit dem Komplexitätsparameter α ∈ R, α ≥ 0 bezeichnen wir als
Kostenkomplexität von T .
VII-49
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Minimal Cost-Complexity Pruning
Definition 5
Für einen Baum T bezeichnen wir |T|, die Anzahl der Blattknoten, als Komplexität
(complexity) von T .
Das Maß
Rα(T ) := R(T ) + α|T|
mit dem Komplexitätsparameter α ∈ R, α ≥ 0 bezeichnen wir als
Kostenkomplexität von T .
Definition 6
Ausgehend von einem Baum Tmax und einem Komplexitätsparameter α ∈ R, α ≥ 0
bezeichnen wir einen Baum T (α) Tmax als kleinsten minimierenden Teilbaum,
wenn er folgende Bedingungen erfüllt:
1. Rα (T (α)) = minT Tmax Rα (T )
2. Falls für einen Teilbaum T Tmax gilt Rα (T (α)) = Rα (T ), so folgt T (α) T .
VII-50
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Minimal Cost-Complexity Pruning
Lemma 2
Für jeden Baum T und jeden Komplexitätsparameter α ∈ R, α ≥ 0 existiert ein
kleinster minimierender Teilbaum T (α) T .
Beweisidee
Induktion für Rα (T (α)) = min{Rα(t), Rα(TL,t (α)) + Rα (TR,t(α))} mit t Wurzel von T .
VII-51
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Minimal Cost-Complexity Pruning
Lemma 3
Für jeden Baum T und jeden Komplexitätsparameter α ∈ R, α ≥ 0 existiert ein
kleinster minimierender Teilbaum T (α) T .
Beweisidee
Induktion für Rα (T (α)) = min{Rα(t), Rα(TL,t (α)) + Rα (TR,t(α))} mit t Wurzel von T .
Beobachtung:
T1
T max
T2
T3
T4
T5
0
T6
{t}
α
Müssen alle Werte für α durchlaufen werden? Sind die Teilbäume geordnet?
VII-52
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Weakest Link Pruning
1. Bestimmung von T1 = T (α1) mit α1 = 0 ausgehend von Tmax
Wegen R(T1) = R(Tmax )
und R(t) ≥ R(tL) + R(tR )
für jeden inneren Knoten t von Tmax mit Nachfolgern tL und tR
schneiden wir alle Blätter tL und tR ab, für die mit ihrem Vorgänger t gilt
R(t) = R(tL) + R(tR ).
VII-53
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Weakest Link Pruning (Forts.)
2. Bestimmung von Tk+1 ausgehend von Tk
Für jeden inneren Knoten t von Tk gilt R(t) > R(Tt ). Setzt man
Rα ({t}) := R(t) + α
und
Rα (Tt) := R(Tt ) + α · |Tt |
so gilt Rα(Tt ) < Rα ({t}) für genügend kleine Werte für α.
Setze
gk (t) :=
R(t)−R(Tt )
|Tt |−1
+∞
für t innerer Knoten von Tk
für t Blattknoten von Tk
und αk+1 := mint∈Tk gk (t).
Die Knoten tk ∈ argmint∈Tk gk (t) bezeichnet man als schwächste Knoten
(weakest links) in Tk . Durch Pruning aller dieser Zweige Ttk (weakest link
pruning) erhalten wir Tk+1.
VII-54
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Weakest Link Pruning (Forts.)
Satz 1
Die durch das Weakest Link Pruning erhaltene endliche Folge (αk ) ist streng
monoton wachsend, d.h.
für alle k
αk < αk+1
und es gilt
T (α) = T (αk ) = Tk
für alle k und αk ≤ α < αk+1
sowie
T1 T2 T3 T4 . . . {t}
VII-55
Classification and Regression Trees
mit t Wurzel von Tmax .
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Weakest Link Pruning (Forts.)
Satz 2
Die durch das Weakest Link Pruning erhaltene endliche Folge (αk ) ist streng
monoton wachsend, d.h.
für alle k
αk < αk+1
und es gilt
T (α) = T (αk ) = Tk
für alle k und αk ≤ α < αk+1
sowie
T1 T2 T3 T4 . . . {t}
mit t Wurzel von Tmax .
Was fehlt noch?
VII-56
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Weakest Link Pruning (Forts.)
Satz 3
Die durch das Weakest Link Pruning erhaltene endliche Folge (αk ) ist streng
monoton wachsend, d.h.
für alle k
αk < αk+1
und es gilt
T (α) = T (αk ) = Tk
für alle k und αk ≤ α < αk+1
sowie
T1 T2 T3 T4 . . . {t}
mit t Wurzel von Tmax .
Was fehlt noch?
Bewertung der Teilbäume Tk zur Bestimmung des „besten“ bzgl.
Missklassifikationskosten.
Gesucht ist geeigneter Schätzer der „wahren“ Missklassifikationskosten R∗(Tk ).
VII-57
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Definition 7 (Missklassifikationskosten für Klassifizierer)
Es sei P ein Wahrscheinlichkeitsmaß auf X × C und c ein gelernter Klassifizierer
für c, L und x0 wie in Folie VII-9 beschrieben.
K
Die Wahrscheinlichkeit, dass ein Beispiel aus Klasse j durch c als Klasse i
Objekt klassifiziert wird, sei
c = j)
Q∗(i|j) := P (c(x0) = i|
K
Die erwarteteten Missklassifikationskosten für Klasse j Beispiele seien
∗
R (j) =
cost(i|j) · Q∗(i|j)
i∈{1,...,J}
K
Die erwarteteten Missklassifikationskosten für den Klassifikator c seien
∗
R (c) =
π(j) · R∗(j)
j∈{1,...,J}
Auswertung einer Menge von Testbeispielen und Kreuzvalidierung liefern
Schätzer für R∗(c).
VII-58
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Schätzung durch Testmenge
1. Bestimme zufällig eine Teilmenge L2 von L mit N (L2) Elementen.
2. Verwende L1 := L \ L2 als Lernmenge zum Aufbau des
Entscheidungsbaumes Tmax und zur Bestimmung der Sequenz
T1 T2 T3 T4 . . . {t} der Teilbäume durch Weakest Link Pruning.
3. Bestimme für L2 als Testmenge die Missklassifikationskosten Rts(Tk ) für Tk :
ts
Rts (Tk ) :=
j∈{1,...,J} π(j) · R (j)
ts
=
π(j)
·
j∈{1,...,J}
i∈{1,...,J} cost(i|j) · Q (i|j)
Nij (L2 )
=
π(j)
·
j∈{1,...,J}
i∈{1,...,J} cost(i|j) · Nj (L2 )
mit π(j) = Nj (L2)/N (L2 ), falls nicht anders vorgegeben, und Nj (L2) als
Klasse j Beispielanzahl in L2 und Nij (L2) als Anzahl der durch Tk als
Klasse i klassifizierten Beispiele darunter.
4. Wähle den Baum Tk0 mit
Rts (Tk0 ) = min Rts(Tk )
k
VII-59
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Schätzung durch Kreuzvalidierung
1. Bestimme zufällig eine Aufteilung in V disjunkte Teilmengen L1, . . . , LV , z.B.
V = 10.
2. Verwende Lv := L \ Lv und L als Lernmenge zum Aufbau der
Entscheidungsbäume Tmax,v und Tmax sowie zur Bestimmung der
Sequenzen T1,v T2,v T3,v . . . {t, v} und T1 T2 T3 . . . {t} der
Teilbäume durch Weakest Link Pruning.
VII-60
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Schätzung durch Kreuzvalidierung
1. Bestimme zufällig eine Aufteilung in V disjunkte Teilmengen L1, . . . , LV , z.B.
V = 10.
2. Verwende Lv := L \ Lv und L als Lernmenge zum Aufbau der
Entscheidungsbäume Tmax,v und Tmax sowie zur Bestimmung der
Sequenzen T1,v T2,v T3,v . . . {t, v} und T1 T2 T3 . . . {t} der
Teilbäume durch Weakest Link Pruning.
Problem:
Die Sequenzen der αk,v passen nicht zusammen!
§ Betrachte die Bäume Tv (α) und beachte Tv (α) = Tk,v für αk,v ≤ α < αk+1,v .
VII-61
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Schätzung durch Kreuzvalidierung (Forts.)
Sequenzen der αk,v durch verschiedene Testmengen Lv :
...
...
10
4
3
2
1
0
VII-62
Classification and Regression Trees
α
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Schätzung durch Kreuzvalidierung (Forts.)
1. Bestimme zufällig eine Aufteilung in V disjunkte Teilmengen L1, . . . , LV , z.B.
V = 10.
2. Verwende Lv := L \ Lv und L als Lernmenge zum Aufbau der
Entscheidungsbäume Tmax,v und Tmax sowie zur Bestimmung der
Sequenzen T1,v T2,v T3,v . . . {t, v} und T1 T2 T3 . . . {t} der
Teilbäume durch Weakest Link Pruning.
3. Für einen Wert α bestimme für Lv als Testmenge die
Missklassifikationskosten Rcv (T (α)):
cv
cv
R (T (α)) :=
j∈{1,...,J} π(j) · R (j)
cv
=
π(j)
·
j∈{1,...,J}
i∈{1,...,J} cost(i|j) · Q (i|j)
v Nij (Lv )
=
j∈{1,...,J} π(j) ·
i∈{1,...,J} cost(i|j) ·
Nj (L)
mit π(j) = Nj (L)/N (L), falls nicht anders vorgegeben, und Nj (L) als Klasse
j Beispielanzahl in L und Nij (Lv ) als Anzahl der durch Tv (α) als Klasse i
klassifizierten Beispiele darunter.
VII-63
Classification and Regression Trees
c
LETTMANN
2006
Pruning von Entscheidungsbäumen
Schätzung durch Kreuzvalidierung (Forts.)
4. Für αk ≤ α < αk+1 sei
αk :=
√
αk · αk+1
geometrisches Mittel
5. Bestimme
Rcv (Tk ) := Rcv (T (αk ))
6. Wähle den Baum Tk0 mit
Rcv (Tk0 ) = min Rcv (Tk )
k
VII-64
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Wiederholung
K
Setze i(t) = φ(p(1|t), . . . , p(J|t)) mit einer Impurity-Funktion phi und sei die
Impurity eines Baumes T
I(T ) =
I(t) =
i(t) · p(t)
t∈T
K
t∈T
Wähle für einen Blattknoten t einen Split, der I(T ) am stärksten reduziert
bzw. ∆i(s, t) maximiert mit
∆i(s, t) = i(t) − pL(s, t) · i(tL) − pR(s, t) · i(tR ) = I(t) − I(tL) − I(tR )
K
Missklassifikationsrate läßt sich als Impurity-Funktion verwenden:
i(t) := r(t) = 1 − max p(j|t)
j∈{1,...,J
Unit-Kosten
mit φ(p1, . . . , pJ ) = 1 − maxj pj .
K
Dieses φ erfüllt alle bisher aufgestellten Kriterien und es gilt
R(t) ≥ R(tL) + R(tR )
mit Gleichheit im Fall j ∗(t) = j ∗ (tL) = j ∗ (tR).
VII-65
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Missklassifikationsrate für Splitting
K
Problem 1:
i(t) = 0 für alle Split-Kriterien möglich.
K
Problem 2:
Pure Knoten werden nicht ausreichend bevorzugt.
Kl. 1: 400; Kl. 2:400
1:300; 2:100
1:100; 2:300
Kl. 1: 400; Kl. 2:400
1:200; 2:400
1:200; 2:0
Lokale Optimierung der Missklassifikationsrate führt zu schlechten
Ergebnissen.
VII-66
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Impurity-Funktionen für den 2-Klassen-Fall
K
Impurity-Funktionen φ müssen folgende Anforderungen erfüllen:
(a) φ(0) = φ(1) = 0 Minimalität im puren Fall
(b) φ(p1) = φ(1 − p1) Symmetrie
(c) Bisher zusätzlich
φ(0.5) = maxp1 ∈[0,1] φ(p1)
φ
0
K
0.5
1
Änderung der Anforderungen:
(c’) φ 2-mal stetig diefferenzierbar und φ (p1) < 0 für 0 < p1 < 1.
VII-67
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Impurity-Funktionen für den 2-Klassen-Fall
K
Impurity-Funktionen φ müssen folgende Anforderungen erfüllen:
(a) φ(0) = φ(1) = 0 Minimalität im puren Fall
(b) φ(p1) = φ(1 − p1) Symmetrie
(c) Bisher zusätzlich
φ(0.5) = maxp1 ∈[0,1] φ(p1)
φ
0
K
0.5
1
Änderung der Anforderungen:
(c’) φ 2-mal stetig diefferenzierbar und φ (p1) < 0 für 0 < p1 < 1.
VII-68
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Impurity-Funktionen für den 2-Klassen-Fall
Lemma 4
Für eine Impurity-Funktion φ mit den Eigenschaften (a), (b) und (c’) folgt, dass für
jeden Knoten t und jeden Split s gilt
∆i(s, t) ≥ 0
mit Gleichheit nur genau im Fall p(j|tL) = p(j|tR) = p(j|t) für j = 1, 2.
VII-69
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Impurity-Funktionen für den 2-Klassen-Fall
Einfachstes Polynom Eigenschaften (a), (b) und (c’) hat Grad 2
φ(x) = a + bx + cx2
Dies liefert die Knoten-Impurity
i(t) = p(1|t) · p(2|t)
Das Kriterium
i(t) = −p(1|t) log p(1|t) − p(2|t) log p(2|t)
erfüllt ebenfalls die Eigenschaften (a), (b) und (c’).
VII-70
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Impurity-Funktionen für den allgemeinen Fall: Gini-Kriterium
iGini (t) =
p(j|t) · p(i|t)
i,j∈{1,...,J}
i=j
VII-71
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Impurity-Funktionen für den allgemeinen Fall: Gini-Kriterium
iGini (t) =
p(j|t) · p(i|t)
i,j∈{1,...,J}
i=j
Es gilt offenbar
⎛
iGini (t) = ⎝
j∈{1,...,J}
⎞2
p(j|t)⎠ −
2
(p(j|t)) = 1 −
j∈{1,...,J}
(p(j|t))2
j∈{1,...,J}
Da die Funktion φ ein Polynom zweiten Grades ist, gilt weiter
∆i(s, t) ≥ 0
mit Gleichheit nur genau im Fall p(j|tL) = p(j|tR) = p(j|t) für j = 1, . . . , J.
VII-72
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Impurity-Funktionen für den allgemeinen Fall: Twoing-Kriterium
1. Teile die Klassen in zwei Mengen (Superklassen) auf:
C1 := {j1, . . . , jn}, C2 := C \ C1
2. Bestimme ∆i(s, t, C1) := ∆i(s, t) mit festem C1 für jeden Split s wie für ein
2-Klassen-Problem.
3. Bestimme den Split s∗(C1), der ∆i(s, t, C1) maximiert.
4. Bestimme das Subset C1, das ∆i(s∗(C1), t, C1) maximiert.
VII-73
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Impurity-Funktionen für den allgemeinen Fall: Twoing-Kriterium
1. Teile die Klassen in zwei Mengen (Superklassen) auf:
C1 := {j1, . . . , jn}, C2 := C \ C1
2. Bestimme ∆i(s, t, C1) := ∆i(s, t) mit festem C1 für jeden Split s wie für ein
2-Klassen-Problem.
3. Bestimme den Split s∗(C1), der ∆i(s, t, C1) maximiert.
4. Bestimme das Subset C1, das ∆i(s∗(C1), t, C1) maximiert.
Bestimmung von Klassenähnlichkeiten:
Klassen werden aufgeteilt in zwei Teilmengen, die in irgendeiner Weise möglichst
„unähnlich“ sind.
Strategische Splits:
Wurzelbereich - Zusammenfassung von Klassen mit großen Ähnlichkeiten
Blattbereich - Abspaltung einzelner Klassen
VII-74
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Satz 4
Bei Verwendung des 2-Klassen-Kriterium p(1|t) · p(2|t) gilt, dass für einen Split s
die Superklasse
C1(s) := {j : p(j|tL) ≥ p(j|tR)}
maximiert ∆i(s, t, C1) und es gilt
⎡
⎤2
p L · p R ⎣
max ∆i(s, t, C1) =
|p(j|tL) − p(j|tR)|⎦
C1
4
j
VII-75
Classification and Regression Trees
c
LETTMANN
2006
Splitting-Kriterien
Satz 5
Bei Verwendung des 2-Klassen-Kriterium p(1|t) · p(2|t) gilt, dass für einen Split s
die Superklasse
C1(s) := {j : p(j|tL) ≥ p(j|tR)}
maximiert ∆i(s, t, C1) und es gilt
⎡
⎤2
p L · p R ⎣
max ∆i(s, t, C1) =
|p(j|tL) − p(j|tR)|⎦
C1
4
j
Korollar 1
Für Knoten t und Splits s von t in tL und tR sei das Twoing-Kriterium definiert
durch
⎡
⎤2
pL · pR ⎣
|p(j|tL) − p(j|tR)|⎦
φ(s, t) :=
4
j
Dann ist der beste Twoing-Split s∗(C1∗) der Split s∗, der φ(s, t) maximiert und es gilt
C1∗ = {j : p(j|t∗L) ≥ p(j|t∗R )}
mit t∗L, t∗R als Nachfolgerknoten für den Split s∗.
VII-76
Classification and Regression Trees
c
LETTMANN
2006
Erweiterungen
VII-77
K
Berücksichtigung von Missklassifikationskosten beim Split
K
Surrogate Splits für fehlende Merkmalwerte
K
Linearkombinationen von Merkmalen
K
Regression Trees
Classification and Regression Trees
c
LETTMANN
2006

Documents pareils