Folien11 - Institut für Statistik

Transcription

Folien11 - Institut für Statistik
Übersicht
Vorlesung: Biostatistische Methoden
• Gutes Verhalten bei zukünftigen Daten
Molekulare Diagnose: Klassifikation,
Modellselektion, und Modellvalidierug
• Die drei Aspekte: Klassifizierung, Modellselektion und Evaluation
des Klassifizierers (Validierung).
• Overfitting
• Modellkomplexität und Dimensionalität
• Kontrolle der Modellkomplexität
• Genselektion
• Kreuzvalidierung
• PAM, SVM
Ulrich Mansmann, Manuela Hummel
IBE, Institut für Statistik, LMU
• Penalized logistische Regression
1
Grundsituation
2
Prädiktive Gene müssen nicht
differentiell exprimiert sein
Responder
Eigenschaft I
Non-Responder
Eigenschaft II
3
4
Gutes Verhalten bei zukünftigen Daten
Klassifikation, Modellselektion, Validierung
Das Risikofunktional kann nicht ausgewertet werden, weil P nicht
bekannt ist. Von der Population ist nur ein Trainingsdatensatz
vorhanden:
T = {(x1, y1), …., (xN, yN)}, N Realisierungen des Paares (X, Y)
• X Ķ Rp, wobei p die Anzahl der Gene ist (Klassifikationsvariablen)
• Y Ķ {-1, 1} Etikettierung der phänotypischen Klassen
• Finde ein Modell f:X -> Y
Wie lässt sich aufgrund dieser Daten ein gutes Modell definieren?
• Anwendung ist die Diagnose, Modelle müssen hinsichtlich
Prädiktion optimal sein. Finde ein Modell, das den erwarteten
Vorhersagefehler minimiert:
• Drei Schritte: Training, Selektion, Test
Mehrere Modell werden an die Daten angepaßt. Die prädiktiven
Eigenschaften jedes Modells werden evaluiert und das Beste wird
ausgesucht. Der Klassifikationsfehler, der bei zukünftigen, neuen
Daten erwartet wird, muss geschätzt werden.
Risikofunktional: R[f] = œL[Y,f(X)] dP(X,Y)
• Aufteilung der Daten in drei Teile
L[Y,f(X)] Verlustfunktion
dP(X,Y) gemeinsame Verteilung von X und Y, die die gesamte
Information über die interessierende Patientenpopulation
(Stichprobe) enthält.
5
Das Hauptproblem ist “overfitting”
• Falls nicht genug Daten vorhanden sind, so wird Kreuzvalidierung
oder der Boostrap benutzt um den Fehler zu schätzen, der bei
einer allgemeinen Anwendung der Klassifikationsregel zu erwarten
ist.
6
Das Hauptproblem ist “overfitting”
• Trainingsfehler, empirisches Risiko: Remp[f] = 1/N×Ƶ L[yi,f(xi)]
Modelle basieren auf dem Vergleich der multivariaten Gaußverteilung für zwei
Klassen. Sie unterscheiden sich in der Modellkomplexität:
• Ein Modell, das optimal auf den Trainingsdaten ist, ist suboptimal
auf den Testdaten.
• Quadratische Diskriminanzanalyse (QDA):
Verschiedene Kovarianzstrukturen in beiden Klassen
• Lineare Diskriminanzanalyse (LDA):
Gleiche Kovarianzstruktur in beiden Klassen
• Diagonale lineare Diskriminanzanalyse (DLDA):
Gleiche diagonale Kovarianzstruktur in beiden Klassen
• Ein weiterer Aspekt der Modellkomplexität wird durch die Anzahl der
betrachteten Klassifikationsvariablen beigetragen.
• Restriktion auf der Modellkomplexität führt zu einer reduzierten
Parametervarianz. Modelle mit mehr Klassifikationsvariablen sind komplexer
und die geschätzten Modellparameter (aus denen die Klassifikationsregel
hergeleitet wird) haben eine höhere Variabilität.
• Der Unterschied zwischen dem Fehler bei Trainings- und Testdaten hängt von der Stichprobenvarianz der Modellparameter ab.
7
8
Das Hauptproblem ist “overfitting”
Verschiedene Methoden zum Konstruieren eines Klassifizierers
9
Modellkomplexität nimmt mit Dimension zu
Quadratische Diskriminanzanalyse (QDA)
Lineare Diskriminanzanalyse
(LDA)
Diagonale lineare
Diskriminanzanalyse (DLDA)
Komplexeste Verfahren der
drei betrachteten Methoden
Verfahren mit mittlerer
Komplexität
Das einfachste der drei
Verfahren
Zunahme der Modellkomplexität durch Zunahme der Anzahl der
Prädiktoren
10
Kontrolle von Modellkomplexität
• Möglichkeit, das abgeleitete Modell verallgemeinern zu können, wird
dadurch erreicht, dass der Trainingsfehler gegen die Modellkomplexität
aufgewogen wird.
• Typischerweise ist die Anzahl der Patientenproben viel kleiner als die
Anzahl der Genen, die zur Klassifikation verwendet werden (n<<p).
Damit ist eine perfekte Trennung der Klassen möglich.
• Selbst, wenn man die Klassenetiketten zufällig variiert und einen linearen
Klassifizierer anpasst, kann eine perfekte Trennung auf den Trainingsdaten
erzeugt werden.
• Einen Prädiktionsfehler von 0 auf den Trainingsdaten garantiert noch keine
hohe Verallgemeinerbarkeit einer Klassifikationsregel, wenn diese auf neue
Daten angewendet wird.
• Bestrafung: ridge regression, LASSO, LARS, …
Adaptive Modellselektion, der Einfluss des Strafterms wird durch einen
tuning Parameter geregelt, dieser wird Datenabhängig gewählt.
• Informationskriterien:
BIC: -2×loglik + d×log(N)
AIC: -2×loglik + d×2
• Selektion: Die populärste Technik der Regularisierung ist Genselektion.
Hard thresholding:
Klassifikation hängt von einer kleinen Menge von Variablen ab
Einzelne Gene werden hinsichtlich ihrer diskriminativen Fähigkeit
ausgewählt.
Soft thresholding:
Shrinkage: Beispiel PAM (eine Variante der DLDA).
Ausschleichen unbedeutender Variablen
11
12
Genselektion reduziert nicht die Dimension des
Modells
• Klassifikation auf einer verkleinerten Genmenge ist ein Zweischrittverfahren.
• Man kann den Selektionsprozeß nicht vom Modell trennen.
• Simulation:
Die Anzahl der Gene beträgt 20 bis 10000. Nur fünf Gene unterscheiden
wirklich zwischen den zwei interessierende Klassen. Im Trainingsdatensatz
werden die Gene mit den 10 höchsten t-Werten genommen und als
Prädiktoren auf dem Testdatensatz verwendet. In allen Fällen hängt die
Entscheidungsfunktion von 10 Genen ab.
Die Verallgemeinerbarkeit der Modelle ist verschieden, obwohl sie alle die
gleiche Anzahl von Genen verwenden.
13
Adaptive Modellselektion
und Bewertung durch Kreuzvalidierung
14
Adaptive Modellselektion
und Bewertung durch Kreuzvalidierung
• Parameter zur Feineinstellung des Modells ermöglichen eine adaptive
Modellselektion: Modelle hängen von einem Parameter ab, der bestimmt
wie stark eine Vereinfachung des Modells erzwungen
Kreuzvalidierung wird verwendet um die beste Einstellung dieser Parameter
zu ermöglichen.
• Variablenselektion ist eine gefährliche Falle bei der Bewertung.
Variablenselektion muss in jedem Schritt der Kreuzvalidierung
durchgeführt werden.
• Modellselektion und Bewertung kann in einer kombinierten verschachtelten
Kreuzvalidierung erfolgen.
Äußere Schleife: Daten werden wiederholt in Test- und Trainingsmengen
aufgespalten
Innere Schleife: Auf jeder Trainingsmenge wird eine zweite Kreuzvalidierung verwendet um die inneren Parameter mit
minimalen KV-Fehler zu bestimmen.
• Die Mittlere Fehlerrate in der äußeren Schleife ist ein Schätzer für die
allgemeine Fehlerrate und die Verallgemeinerbarkeit des Klassifizierers.
• Nicht nur die Variablenselektion, sondern auch die Parameteroptimierung
müssen in der inneren Schleife der KV erfolgen, so dass eine Unterschätzung des Klassifikationsfehlers vermieden wird.
15
16
Einführung in das PAM-Verfahren
Betrachtung eines einzelnen Gens
a1, ... , a100 Expressionsniveaus in Gruppe a
Es liegen 200 Patientenprofile auf Arrays mit 30000 Genen vor.
b1, ... , b100 Expressionsniveaus in Gruppe b
Patienten können in zwei Gruppen hinsichtlich einer klinischen oder
krankheitsspezifischen Eigenschaft aufgeteilt werden. Es befinden
sich 100 Patienten pro Gruppe.
a
b
Die Gruppeneinteilung wurde nicht aufgrund der Genexpression
abgeleitet.
c
1
a ... a100
100 1
1
b ... b100
100 1
In diesem einfachen Modell
werden die Gruppen durch die
Genmittlwerte repräsentiert
Eine Diagnose wird aufgrund des
nächstliegenden Mittelwertes
gestellt.
Expressionsniveau eines Patienten mit
unbekanntem Status
Problem: Kann die Gruppenzugehörigkeit aus den Expressionsprofilen abgeleitet werden?
Vergleiche c a und c b
Diagnose : a falls c a c b
b falls c a t c b
17
18
Betrachte 2 Gene
a1,1, ... ,a1,100 , a2,1, ... ,a2,100
b1,1, ... ,b1,100 , b2,1, ... ,b2,100
a
( a1, a2 )
b
(b1, b2 )
c
(c1, c2 )
Gruppe a
Gruppe b
Betrachte N Gene
ai, j
Gen i bei Patient j aus Gruppe a
bi, j
Gen i bei Patient j aus Gruppe b
Gen1
Gen2
a
( a1, , aN )
b
(b1, , bN )
c1, , cN
Nächste Zentrum Methode
Patient ohne Diagnose
Patientengruppen werden mit
Clusterzentren identifiziert
Patient ohne Diagnose
Vergleiche Entfernung zu den Clusterzentren :
Vergleiche : da
( a1 c1 )2 ( a2 c2 )2 und
N
da
(b1 c1 )2 (b2 c2 )2
Diagnose : a falls da db sonst b
db
2
¦ ( ai ci )
Diagnose erfolgt hinsichtlich
des nächsten Zentrums.
i 1
N
db
19
¦ (bi ci )2
i 1
Diagnose : a falls da db sonst b
20
… hier liegt das Problem!
ai, j
Gene i bei Patient j aus Gruppe a
bi, j
Gene i bei Patient j aus Gruppe b
Gen1
N
da
¦ (ai ci )2
Alle N Gene
tragen zur
Diagnose gleich
bei.
i 1
N
db
¦ (bi ci )2
Gen2
i 1
Diagnose : a falls da db sonst b
21
22
The variances need to be estimated
Gene mit kleiner „Varianz“ sollten ein größeres Gewicht
erhalten als Gene mit großer Varianz.
Vi2
N
da
¦ wi (ai ci ) 2
i 1
N
db
¦ w (b
i
i
1 n /2
¦ ( ai, j ai )2 (bi, j bi )2
n 2 j 1
gepoolte Varianz
ci ) 2
Im gegebenen Fall : n
i 1
200
Die geschätzte Varianz ist nicht
die wahre Varianz. Sie kann zu
hoch oder zu klein sein.
V i2
Kann sehr klein sein und damit
wi
unnatürlich groß.
Æ SAM
wi
Verwende gepoolte Varianz aus beiden Gruppen.
23
V20
(Vi V0 ) 2
median(V12, , V2N )
Dies ereignet sich selten, wenn
wenige Variablen betrachtet
werden, es passiert dennoch oft
falls 30000 Gene in einem
Datensatz betrachtet werden.
24
Ist c ein a oder ein b?
Baseline Korrektur
Gen1
Gen2
Beobachtung c liegt näher zum
Mittelpunkt des a Clusters. Es
gibt jedoch mehr b als a
Beobachtungen.
Wenn dies die Situation in der
Population widerspiegelt
(Prävalenz), dann sollte c zu b
geschlagen werden.
Sa
Prävalenz von Gruppe a
Sb
1 - Sa
da (c)
N ( a c )2
i
i
2log S a
2
V
V
(
i 1 i
0)
db (c)
N (b c )2
i
i
2log Sb
2
V
V
(
)
i 1 i
0
¦
¦
25
Diskriminanz-Score
26
Klassifikationswahrscheinlichkeit
Gen1
Entfernung zum
Zentroid
d a (c)
( a i ci ) 2
2 log S a
¦
2
i 1 (V i V 0 )
d b (c)
(bi ci ) 2
2 log S b
¦
2
i 1 (V i V 0 )
N
Baseline Korrektur
Gen2
Die Beobachtungen c und d
werden als zugehörig zu a
klassifiziert
Die Entscheidung für d war
dabei nicht so überzeugend.
N
Gepoolte
Varianzschätzung
Parameter zur
Regularisierung
der Varianz 27
1
da (c)
e 2
Prob >Gruppe(c)
a@
Prob >Gruppe(c)
e
e
b@ 1 Prob >Gruppe(c)
1
da ( c)
2
1
db ( c)
2
,
a@
28
Alles in einem Gesamtbild
d a (c)
d b (c)
Variablenselektion
30000 Gene sind zuviel, sie führen zu Overfitting
ist eine Hyper-Ebene
Sie verrauschen den Klassifizierer ... Viele haben kleine
Gewichte ... Sie alle können keine bedeutende Rolle spielen ...
Es werden immer noch alle 30000 Gene verwendet
Æ Wähle wichtige Gene aus:
Æ Overfitting ist sehr wahrscheinlich
Wähle Gene mit dem höchsten regularisierten t-Score
29
Harte gegen weiche Schwellen
30
Geschrumpfte Centroids
Tibshirani et al. (2002) PNAS, 99:6567-6572
Wähle beispielsweise 100 Gene aus
Gen Nr. 100 ist in der Auswahl, Gen Nummer 101 nicht, obwohl
dieses vielleicht genauso informativ ist.
Gene, die man loswerden möchte kann man abhacken
(Variablenselektion) oder man kann sie langsam wegschieben.
genes
genes
genes
genes
genes
genes
genes
genes
genes
genes
genes
genes
genes
genes
genes
31
32
Die Idee
Schrumpfen der Centroids
Gene mit großen Gewichten sind für
die Klassifizierung von Bedeutung.
Globales Centroid
Centroid
Gruppe a
Gene mit kleinen Gewichten weniger
Gene, die ausgeschlossen werden,
spielen bei der Klassifikation
ebenfalls keine Rolle.
Centroid
Gruppe b
Gen 1
Bevor ein Gen jedoch ausgeschlossen
wird, wird es kontinuierlich seines
Einflusses beraubt.
genes
genes
genes
genes
Gen 1
genes
genes
genes
genes
genes
genes
genes
genes
genes
genes
Geschrumpftes Geschrumpftes SchrumpfungsCentroid
Centroid
parameter ǻ
Gruppe a
Gruppe b
genes
33
Gruppen Centroid
Notation
34
Globale
Centroid
Skalierungsfaktor
ai
Mittelwert von Gen i in Gruppe a
bi
Mittelwert von Gen i in Gruppe b
xi
Globaler Mittelwert von Gen i
ai
xi ma (Vi V0 ) Di, a
ai
xi ma (Vi V0 ) Dic, a
Setze
Di, a
ai - xi
,
ma (Vi V0 )
Di,b
ma
ai
xi ma (Vi V0 ) Di, a
bi
1 / na 1 / nb
Dic, a
()
35
sign( Di, a ) ( Di, a ')
Abschneiden an der 0
Offset
Geschrumpfter
Offset
Schrumpf-Parameter
36
Schrumpfen der Centroids
Estrogen Rezeptor Status
Gen für Gen werden die Gruppen Centroids gegen das globale Centroid
geschrumpft, bis sie mit ihm zusammenfallen. In diesem Moment it das
Gen für die Klassifikation unbedeutend geworden.
•
•
•
•
7000 Gene
49 Mammakarzinome
25 ER+
24 ER-
Die Schrumpfung wird durch den Paarmeter Delta (¨) kontrolliert
Wenig Schrumpfung: Viele Gene tragen noch zum Centroid bei
Starke Schrumpfung: Nur noch wenige Gene tragen zum Centroid bei
Der angemessene Schrumpf-Parameter Delta (¨) wird durch
Kreuzvalidierung bestimmt.
37
38
39
40
Quiz
Antwort
• PAM findet diese Gene nicht, weil die Gruppenmittel nahe
am globalen Mittel liegen.
30000 Gene werden untersucht, davon sind 29998 biologisch
für die Klassifikation irrelevant, die restlichen zwei zeigen das
im Bild dargestellt Verhalten.
• Jedes Gen für sich genommen ist ein schlechter
Klassifizierer
• Dies ist sowohl eine Schwäche wie auch Eigenheit von PAM
• PAM findet nicht alles, aber was es findet hat eine gute
Chance relevant für die Klassifikation zu sein.
Wie verhält sich PAM?
41
PAM - Zusammenfassung
42
Support Vektor Maschinen (SVM)
• PAM selektiert Variablen Gen pro Gen.
Eine Support Vektor Maschine ist eine Hyperebene mit maximalen
Rändern im F-Raum (feature space), auf die durch einen Kern der Raum
mit den Beobachtungen abgebildet wird.
• Die geschrumpften Zentroide sind die Signaturen.
• Interaktion zwischen den Genen spielt für die Auswahl keine
Rolle. Gene werden aufgrund ihrer individuellen Eigenschaften
ausgewählt.
• Konsistent auf- und herabregulierte Gene werden in Signatur
übernommen.
43
44
Wie lassen sich die Hyperebenen trennen?
Trenne mit einer maximal dicken Ebene
Die gewichtete Summe der SPs
ist der Normalenvektor der
trennenden Hyperebene
Dicke
Nur die Supportvektoren
bestimmen die trennende
Hyperebene, alle anderen
haben darauf keinen
Einfluß
Support
Vektoren
e
n d ne
e
n e
en eb
Tr per
Hy
Support
Vektoren
45
Nicht trennbare Trainingsdaten
46
Einfache versus komplexe Probleme
Benutze lineare Trennebene, erlaube
Trainingsfehler, bestrafe Fehler durch
das Produkt aus Entfernung zur
Hyperebene mal Fehlerkosten C
Ein Kernel ist ein innere rodukt von zwei Profilen, die in einen
hochdimensionalen F-Raum (feature space) eingebettet wurden:
K(x,y) = < ij(x), ij(y)>
ij : Rg ĺ H
1.) Nichtlineare Ähnlichkeitsmaße
2.) Geometrische Konstruktionen im F-Raum
3.) Innere Produkt wird durch Kern ersetzt.
Linear: K(x,y) = <x,y>
Polynomial: K(x,y) = (1+<x,y>)d
Radial: exp(-Ȗ·Œx-yŒ2)
de
en ene
n
en eb
Tr per
Hy
4.) Parameter:
47
Einfluß des Trainingsfehlers – Fehlergewicht C
Kern-Parameter: d oder Ȗ
48
Einfache versus komplexe Probleme
Verschiedene Komplexitäten
Abbildungen aus SCHÖLKOPF und SMOLA, Learning with
Kernels, MIT Press 2002, p. 217
Komplexes Problem im
niedrig dimensionalen
Raum
Einfaches Problem im
hoch dimensionalen Raum
49
Bestrafte logistische Regression
50
Zusammenfassung
• Klassifikation von Microarrays unterliegt der Gefahr des Overfitting. Naiv
erstellte Modelle führen zu biologisch irrelevanten Modellen, die bei neuen
Patienten zusammenbrechen.
Eilers PH, Boer JM, Van Ommen GJ, Van Houwelingen HC. Classification
of microarray data with penalized logistic regression. Proceedings of SPIE
volume 4266: progress in biomedical optics and imaging 2:187–198 (2001)
• Das zentrale Problem prädikativer Modelle ist Regularisierung.
• Steuerparameter für die Modellselektion können durch eine Kreuzvalidierung adaptiv kalibriert werden.
• Eine rigorose und verzerrungsfreie Bewertung prädikativer Modelle
ist ein Muss.
• Variablenselektion ist integraler Bestandteil von Modellbildung und
Modellselektion.
• Statistische Klassifikationstechniken sind für eine verbesserte
medizinische Diagnose unumgänglich. Dabei ist es ein Problem, dass die
Gene, die eine gute Klassifikationsregel aufbauen, oft nicht funktionellen
Aspekten zugeordnet werden können (aktive Bestandteile der Prozesse, die
die Krankheit verursachen).
51
52