Folien11 - Institut für Statistik
Transcription
Folien11 - Institut für Statistik
Übersicht Vorlesung: Biostatistische Methoden • Gutes Verhalten bei zukünftigen Daten Molekulare Diagnose: Klassifikation, Modellselektion, und Modellvalidierug • Die drei Aspekte: Klassifizierung, Modellselektion und Evaluation des Klassifizierers (Validierung). • Overfitting • Modellkomplexität und Dimensionalität • Kontrolle der Modellkomplexität • Genselektion • Kreuzvalidierung • PAM, SVM Ulrich Mansmann, Manuela Hummel IBE, Institut für Statistik, LMU • Penalized logistische Regression 1 Grundsituation 2 Prädiktive Gene müssen nicht differentiell exprimiert sein Responder Eigenschaft I Non-Responder Eigenschaft II 3 4 Gutes Verhalten bei zukünftigen Daten Klassifikation, Modellselektion, Validierung Das Risikofunktional kann nicht ausgewertet werden, weil P nicht bekannt ist. Von der Population ist nur ein Trainingsdatensatz vorhanden: T = {(x1, y1), …., (xN, yN)}, N Realisierungen des Paares (X, Y) • X Ķ Rp, wobei p die Anzahl der Gene ist (Klassifikationsvariablen) • Y Ķ {-1, 1} Etikettierung der phänotypischen Klassen • Finde ein Modell f:X -> Y Wie lässt sich aufgrund dieser Daten ein gutes Modell definieren? • Anwendung ist die Diagnose, Modelle müssen hinsichtlich Prädiktion optimal sein. Finde ein Modell, das den erwarteten Vorhersagefehler minimiert: • Drei Schritte: Training, Selektion, Test Mehrere Modell werden an die Daten angepaßt. Die prädiktiven Eigenschaften jedes Modells werden evaluiert und das Beste wird ausgesucht. Der Klassifikationsfehler, der bei zukünftigen, neuen Daten erwartet wird, muss geschätzt werden. Risikofunktional: R[f] = L[Y,f(X)] dP(X,Y) • Aufteilung der Daten in drei Teile L[Y,f(X)] Verlustfunktion dP(X,Y) gemeinsame Verteilung von X und Y, die die gesamte Information über die interessierende Patientenpopulation (Stichprobe) enthält. 5 Das Hauptproblem ist “overfitting” • Falls nicht genug Daten vorhanden sind, so wird Kreuzvalidierung oder der Boostrap benutzt um den Fehler zu schätzen, der bei einer allgemeinen Anwendung der Klassifikationsregel zu erwarten ist. 6 Das Hauptproblem ist “overfitting” • Trainingsfehler, empirisches Risiko: Remp[f] = 1/N×Ƶ L[yi,f(xi)] Modelle basieren auf dem Vergleich der multivariaten Gaußverteilung für zwei Klassen. Sie unterscheiden sich in der Modellkomplexität: • Ein Modell, das optimal auf den Trainingsdaten ist, ist suboptimal auf den Testdaten. • Quadratische Diskriminanzanalyse (QDA): Verschiedene Kovarianzstrukturen in beiden Klassen • Lineare Diskriminanzanalyse (LDA): Gleiche Kovarianzstruktur in beiden Klassen • Diagonale lineare Diskriminanzanalyse (DLDA): Gleiche diagonale Kovarianzstruktur in beiden Klassen • Ein weiterer Aspekt der Modellkomplexität wird durch die Anzahl der betrachteten Klassifikationsvariablen beigetragen. • Restriktion auf der Modellkomplexität führt zu einer reduzierten Parametervarianz. Modelle mit mehr Klassifikationsvariablen sind komplexer und die geschätzten Modellparameter (aus denen die Klassifikationsregel hergeleitet wird) haben eine höhere Variabilität. • Der Unterschied zwischen dem Fehler bei Trainings- und Testdaten hängt von der Stichprobenvarianz der Modellparameter ab. 7 8 Das Hauptproblem ist “overfitting” Verschiedene Methoden zum Konstruieren eines Klassifizierers 9 Modellkomplexität nimmt mit Dimension zu Quadratische Diskriminanzanalyse (QDA) Lineare Diskriminanzanalyse (LDA) Diagonale lineare Diskriminanzanalyse (DLDA) Komplexeste Verfahren der drei betrachteten Methoden Verfahren mit mittlerer Komplexität Das einfachste der drei Verfahren Zunahme der Modellkomplexität durch Zunahme der Anzahl der Prädiktoren 10 Kontrolle von Modellkomplexität • Möglichkeit, das abgeleitete Modell verallgemeinern zu können, wird dadurch erreicht, dass der Trainingsfehler gegen die Modellkomplexität aufgewogen wird. • Typischerweise ist die Anzahl der Patientenproben viel kleiner als die Anzahl der Genen, die zur Klassifikation verwendet werden (n<<p). Damit ist eine perfekte Trennung der Klassen möglich. • Selbst, wenn man die Klassenetiketten zufällig variiert und einen linearen Klassifizierer anpasst, kann eine perfekte Trennung auf den Trainingsdaten erzeugt werden. • Einen Prädiktionsfehler von 0 auf den Trainingsdaten garantiert noch keine hohe Verallgemeinerbarkeit einer Klassifikationsregel, wenn diese auf neue Daten angewendet wird. • Bestrafung: ridge regression, LASSO, LARS, … Adaptive Modellselektion, der Einfluss des Strafterms wird durch einen tuning Parameter geregelt, dieser wird Datenabhängig gewählt. • Informationskriterien: BIC: -2×loglik + d×log(N) AIC: -2×loglik + d×2 • Selektion: Die populärste Technik der Regularisierung ist Genselektion. Hard thresholding: Klassifikation hängt von einer kleinen Menge von Variablen ab Einzelne Gene werden hinsichtlich ihrer diskriminativen Fähigkeit ausgewählt. Soft thresholding: Shrinkage: Beispiel PAM (eine Variante der DLDA). Ausschleichen unbedeutender Variablen 11 12 Genselektion reduziert nicht die Dimension des Modells • Klassifikation auf einer verkleinerten Genmenge ist ein Zweischrittverfahren. • Man kann den Selektionsprozeß nicht vom Modell trennen. • Simulation: Die Anzahl der Gene beträgt 20 bis 10000. Nur fünf Gene unterscheiden wirklich zwischen den zwei interessierende Klassen. Im Trainingsdatensatz werden die Gene mit den 10 höchsten t-Werten genommen und als Prädiktoren auf dem Testdatensatz verwendet. In allen Fällen hängt die Entscheidungsfunktion von 10 Genen ab. Die Verallgemeinerbarkeit der Modelle ist verschieden, obwohl sie alle die gleiche Anzahl von Genen verwenden. 13 Adaptive Modellselektion und Bewertung durch Kreuzvalidierung 14 Adaptive Modellselektion und Bewertung durch Kreuzvalidierung • Parameter zur Feineinstellung des Modells ermöglichen eine adaptive Modellselektion: Modelle hängen von einem Parameter ab, der bestimmt wie stark eine Vereinfachung des Modells erzwungen Kreuzvalidierung wird verwendet um die beste Einstellung dieser Parameter zu ermöglichen. • Variablenselektion ist eine gefährliche Falle bei der Bewertung. Variablenselektion muss in jedem Schritt der Kreuzvalidierung durchgeführt werden. • Modellselektion und Bewertung kann in einer kombinierten verschachtelten Kreuzvalidierung erfolgen. Äußere Schleife: Daten werden wiederholt in Test- und Trainingsmengen aufgespalten Innere Schleife: Auf jeder Trainingsmenge wird eine zweite Kreuzvalidierung verwendet um die inneren Parameter mit minimalen KV-Fehler zu bestimmen. • Die Mittlere Fehlerrate in der äußeren Schleife ist ein Schätzer für die allgemeine Fehlerrate und die Verallgemeinerbarkeit des Klassifizierers. • Nicht nur die Variablenselektion, sondern auch die Parameteroptimierung müssen in der inneren Schleife der KV erfolgen, so dass eine Unterschätzung des Klassifikationsfehlers vermieden wird. 15 16 Einführung in das PAM-Verfahren Betrachtung eines einzelnen Gens a1, ... , a100 Expressionsniveaus in Gruppe a Es liegen 200 Patientenprofile auf Arrays mit 30000 Genen vor. b1, ... , b100 Expressionsniveaus in Gruppe b Patienten können in zwei Gruppen hinsichtlich einer klinischen oder krankheitsspezifischen Eigenschaft aufgeteilt werden. Es befinden sich 100 Patienten pro Gruppe. a b Die Gruppeneinteilung wurde nicht aufgrund der Genexpression abgeleitet. c 1 a ... a100 100 1 1 b ... b100 100 1 In diesem einfachen Modell werden die Gruppen durch die Genmittlwerte repräsentiert Eine Diagnose wird aufgrund des nächstliegenden Mittelwertes gestellt. Expressionsniveau eines Patienten mit unbekanntem Status Problem: Kann die Gruppenzugehörigkeit aus den Expressionsprofilen abgeleitet werden? Vergleiche c a und c b Diagnose : a falls c a c b b falls c a t c b 17 18 Betrachte 2 Gene a1,1, ... ,a1,100 , a2,1, ... ,a2,100 b1,1, ... ,b1,100 , b2,1, ... ,b2,100 a ( a1, a2 ) b (b1, b2 ) c (c1, c2 ) Gruppe a Gruppe b Betrachte N Gene ai, j Gen i bei Patient j aus Gruppe a bi, j Gen i bei Patient j aus Gruppe b Gen1 Gen2 a ( a1, , aN ) b (b1, , bN ) c1, , cN Nächste Zentrum Methode Patient ohne Diagnose Patientengruppen werden mit Clusterzentren identifiziert Patient ohne Diagnose Vergleiche Entfernung zu den Clusterzentren : Vergleiche : da ( a1 c1 )2 ( a2 c2 )2 und N da (b1 c1 )2 (b2 c2 )2 Diagnose : a falls da db sonst b db 2 ¦ ( ai ci ) Diagnose erfolgt hinsichtlich des nächsten Zentrums. i 1 N db 19 ¦ (bi ci )2 i 1 Diagnose : a falls da db sonst b 20 … hier liegt das Problem! ai, j Gene i bei Patient j aus Gruppe a bi, j Gene i bei Patient j aus Gruppe b Gen1 N da ¦ (ai ci )2 Alle N Gene tragen zur Diagnose gleich bei. i 1 N db ¦ (bi ci )2 Gen2 i 1 Diagnose : a falls da db sonst b 21 22 The variances need to be estimated Gene mit kleiner „Varianz“ sollten ein größeres Gewicht erhalten als Gene mit großer Varianz. Vi2 N da ¦ wi (ai ci ) 2 i 1 N db ¦ w (b i i 1 n /2 ¦ ( ai, j ai )2 (bi, j bi )2 n 2 j 1 gepoolte Varianz ci ) 2 Im gegebenen Fall : n i 1 200 Die geschätzte Varianz ist nicht die wahre Varianz. Sie kann zu hoch oder zu klein sein. V i2 Kann sehr klein sein und damit wi unnatürlich groß. Æ SAM wi Verwende gepoolte Varianz aus beiden Gruppen. 23 V20 (Vi V0 ) 2 median(V12, , V2N ) Dies ereignet sich selten, wenn wenige Variablen betrachtet werden, es passiert dennoch oft falls 30000 Gene in einem Datensatz betrachtet werden. 24 Ist c ein a oder ein b? Baseline Korrektur Gen1 Gen2 Beobachtung c liegt näher zum Mittelpunkt des a Clusters. Es gibt jedoch mehr b als a Beobachtungen. Wenn dies die Situation in der Population widerspiegelt (Prävalenz), dann sollte c zu b geschlagen werden. Sa Prävalenz von Gruppe a Sb 1 - Sa da (c) N ( a c )2 i i 2log S a 2 V V ( i 1 i 0) db (c) N (b c )2 i i 2log Sb 2 V V ( ) i 1 i 0 ¦ ¦ 25 Diskriminanz-Score 26 Klassifikationswahrscheinlichkeit Gen1 Entfernung zum Zentroid d a (c) ( a i ci ) 2 2 log S a ¦ 2 i 1 (V i V 0 ) d b (c) (bi ci ) 2 2 log S b ¦ 2 i 1 (V i V 0 ) N Baseline Korrektur Gen2 Die Beobachtungen c und d werden als zugehörig zu a klassifiziert Die Entscheidung für d war dabei nicht so überzeugend. N Gepoolte Varianzschätzung Parameter zur Regularisierung der Varianz 27 1 da (c) e 2 Prob >Gruppe(c) a@ Prob >Gruppe(c) e e b@ 1 Prob >Gruppe(c) 1 da ( c) 2 1 db ( c) 2 , a@ 28 Alles in einem Gesamtbild d a (c) d b (c) Variablenselektion 30000 Gene sind zuviel, sie führen zu Overfitting ist eine Hyper-Ebene Sie verrauschen den Klassifizierer ... Viele haben kleine Gewichte ... Sie alle können keine bedeutende Rolle spielen ... Es werden immer noch alle 30000 Gene verwendet Æ Wähle wichtige Gene aus: Æ Overfitting ist sehr wahrscheinlich Wähle Gene mit dem höchsten regularisierten t-Score 29 Harte gegen weiche Schwellen 30 Geschrumpfte Centroids Tibshirani et al. (2002) PNAS, 99:6567-6572 Wähle beispielsweise 100 Gene aus Gen Nr. 100 ist in der Auswahl, Gen Nummer 101 nicht, obwohl dieses vielleicht genauso informativ ist. Gene, die man loswerden möchte kann man abhacken (Variablenselektion) oder man kann sie langsam wegschieben. genes genes genes genes genes genes genes genes genes genes genes genes genes genes genes 31 32 Die Idee Schrumpfen der Centroids Gene mit großen Gewichten sind für die Klassifizierung von Bedeutung. Globales Centroid Centroid Gruppe a Gene mit kleinen Gewichten weniger Gene, die ausgeschlossen werden, spielen bei der Klassifikation ebenfalls keine Rolle. Centroid Gruppe b Gen 1 Bevor ein Gen jedoch ausgeschlossen wird, wird es kontinuierlich seines Einflusses beraubt. genes genes genes genes Gen 1 genes genes genes genes genes genes genes genes genes genes Geschrumpftes Geschrumpftes SchrumpfungsCentroid Centroid parameter ǻ Gruppe a Gruppe b genes 33 Gruppen Centroid Notation 34 Globale Centroid Skalierungsfaktor ai Mittelwert von Gen i in Gruppe a bi Mittelwert von Gen i in Gruppe b xi Globaler Mittelwert von Gen i ai xi ma (Vi V0 ) Di, a ai xi ma (Vi V0 ) Dic, a Setze Di, a ai - xi , ma (Vi V0 ) Di,b ma ai xi ma (Vi V0 ) Di, a bi 1 / na 1 / nb Dic, a () 35 sign( Di, a ) ( Di, a ') Abschneiden an der 0 Offset Geschrumpfter Offset Schrumpf-Parameter 36 Schrumpfen der Centroids Estrogen Rezeptor Status Gen für Gen werden die Gruppen Centroids gegen das globale Centroid geschrumpft, bis sie mit ihm zusammenfallen. In diesem Moment it das Gen für die Klassifikation unbedeutend geworden. • • • • 7000 Gene 49 Mammakarzinome 25 ER+ 24 ER- Die Schrumpfung wird durch den Paarmeter Delta (¨) kontrolliert Wenig Schrumpfung: Viele Gene tragen noch zum Centroid bei Starke Schrumpfung: Nur noch wenige Gene tragen zum Centroid bei Der angemessene Schrumpf-Parameter Delta (¨) wird durch Kreuzvalidierung bestimmt. 37 38 39 40 Quiz Antwort • PAM findet diese Gene nicht, weil die Gruppenmittel nahe am globalen Mittel liegen. 30000 Gene werden untersucht, davon sind 29998 biologisch für die Klassifikation irrelevant, die restlichen zwei zeigen das im Bild dargestellt Verhalten. • Jedes Gen für sich genommen ist ein schlechter Klassifizierer • Dies ist sowohl eine Schwäche wie auch Eigenheit von PAM • PAM findet nicht alles, aber was es findet hat eine gute Chance relevant für die Klassifikation zu sein. Wie verhält sich PAM? 41 PAM - Zusammenfassung 42 Support Vektor Maschinen (SVM) • PAM selektiert Variablen Gen pro Gen. Eine Support Vektor Maschine ist eine Hyperebene mit maximalen Rändern im F-Raum (feature space), auf die durch einen Kern der Raum mit den Beobachtungen abgebildet wird. • Die geschrumpften Zentroide sind die Signaturen. • Interaktion zwischen den Genen spielt für die Auswahl keine Rolle. Gene werden aufgrund ihrer individuellen Eigenschaften ausgewählt. • Konsistent auf- und herabregulierte Gene werden in Signatur übernommen. 43 44 Wie lassen sich die Hyperebenen trennen? Trenne mit einer maximal dicken Ebene Die gewichtete Summe der SPs ist der Normalenvektor der trennenden Hyperebene Dicke Nur die Supportvektoren bestimmen die trennende Hyperebene, alle anderen haben darauf keinen Einfluß Support Vektoren e n d ne e n e en eb Tr per Hy Support Vektoren 45 Nicht trennbare Trainingsdaten 46 Einfache versus komplexe Probleme Benutze lineare Trennebene, erlaube Trainingsfehler, bestrafe Fehler durch das Produkt aus Entfernung zur Hyperebene mal Fehlerkosten C Ein Kernel ist ein innere rodukt von zwei Profilen, die in einen hochdimensionalen F-Raum (feature space) eingebettet wurden: K(x,y) = < ij(x), ij(y)> ij : Rg ĺ H 1.) Nichtlineare Ähnlichkeitsmaße 2.) Geometrische Konstruktionen im F-Raum 3.) Innere Produkt wird durch Kern ersetzt. Linear: K(x,y) = <x,y> Polynomial: K(x,y) = (1+<x,y>)d Radial: exp(-Ȗ·Œx-yŒ2) de en ene n en eb Tr per Hy 4.) Parameter: 47 Einfluß des Trainingsfehlers – Fehlergewicht C Kern-Parameter: d oder Ȗ 48 Einfache versus komplexe Probleme Verschiedene Komplexitäten Abbildungen aus SCHÖLKOPF und SMOLA, Learning with Kernels, MIT Press 2002, p. 217 Komplexes Problem im niedrig dimensionalen Raum Einfaches Problem im hoch dimensionalen Raum 49 Bestrafte logistische Regression 50 Zusammenfassung • Klassifikation von Microarrays unterliegt der Gefahr des Overfitting. Naiv erstellte Modelle führen zu biologisch irrelevanten Modellen, die bei neuen Patienten zusammenbrechen. Eilers PH, Boer JM, Van Ommen GJ, Van Houwelingen HC. Classification of microarray data with penalized logistic regression. Proceedings of SPIE volume 4266: progress in biomedical optics and imaging 2:187–198 (2001) • Das zentrale Problem prädikativer Modelle ist Regularisierung. • Steuerparameter für die Modellselektion können durch eine Kreuzvalidierung adaptiv kalibriert werden. • Eine rigorose und verzerrungsfreie Bewertung prädikativer Modelle ist ein Muss. • Variablenselektion ist integraler Bestandteil von Modellbildung und Modellselektion. • Statistische Klassifikationstechniken sind für eine verbesserte medizinische Diagnose unumgänglich. Dabei ist es ein Problem, dass die Gene, die eine gute Klassifikationsregel aufbauen, oft nicht funktionellen Aspekten zugeordnet werden können (aktive Bestandteile der Prozesse, die die Krankheit verursachen). 51 52