Die binäre Logistische Regression è ein vielseitiges und robustes
Transcription
Die binäre Logistische Regression è ein vielseitiges und robustes
Die binäre Logistische Regression – ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Eine Einführung für Anwender - Marcel Erlinghagen - Gelsenkirchen, Oktober 2003 Gliederung 1 2 3 4 5 6 7 8 Was heißt „Regression“? Das Regressionsprinzip am Beispiel der „linearen Einfachregression“ Warum logistische Regression? Datenvoraussetzungen und Datenvorbereitung für die logistische Regression Interpretation der Regressionsergebnisse Die Regressionsanalyse als iteratives Verfahren „Odd Ratios“ – eine weitere Darstellungsform der Schätzergebnisse Ausblick 1 1 Was heißt „Regression“? Ziel von Wissenschaft: Klärung von Zusammenhängen unterschiedlichen Sachverhalten zwischen 2 Es gibt zwei Arten von Zusammenhängen: a) exakte Zusammenhänge (bspw. „Naturgesetze“) mathematisch darstellbar als Funktionsgleichung; bspw.: y = f(x) b) zufallsabhängige („stochastische“) Zusammenhänge mathematisch darstellbar als Regressionsgleichung; bspw.: y = bx + a „Regression“ (engl. regression = Zurückentwicklung, Rückbildung) Inwiefern lässt sich die Ausprägung einer abhängigen Variable auf die Ausprägung einer unabhängigen Variable zurückführen („regressieren“)? 2 Das Regressionsprinzip am Beispiel der „linearen Einfachregression“ 3 Beispiel 1 Wie hängt das Einkommen einer Personen mit der Dauer des Schulbesuches zusammen? 1. Schritt: Modellbildung „Das Einkommen einer Person steigt proportional zur Schulbesuchsdauer“ (linearer Zusammenhang) oder auch geschätzte Einkommenshöhe = unbekannter Faktor multipliziert mit der Schulbesuchsdauer zuzüglich einer unbekannten Störgröße oder auch y = bx + a 2. Schritt: Beobachtungsdaten gewinnen Person Herr Müller Frau Meier Herr Schulz Herr Schmidt Frau Mustermann Herr Kleinknecht Frau Dorfner Herr Beier Herr Dudenhofen Schuljahre 8 10 13 9 10 15 13 8 10 Einkommen 1400 2100 2100 1800 1900 2000 2200 1600 1600 4 3. Schritt: Regressionsparameter schätzen Unter der Modellvoraussetzung y = bx + a Wie groß ist a und b? “Es gilt eine Gleichung zu finden, mit deren Hilfe die Werte der abhängigen Variablen [...] aufgrund der Werte der explikativen Variablen [...] so geschätzt werden können, dass die Schätzfehler minimal sind” (Kromrey 2000: 474). 3000 2500 Einkommen 2000 1500 1000 500 0 0 5 10 15 Schuljahre 20 Die Regressionsparameter a (Störfaktor; Achsenabschnitt) und b (Regressionskoeffizient; Steigung) werden aus den Beobachtungswerten mittels der „Methode der kleinsten Quadrate“ (Ordinary-Least-Square- oder OLSRegression) geschätzt. In unserem Beispiel ergibt sich dabei: y = 82,639x + 974,07 3000 y = 82,639x + 974,07 2 R = 0,5443 Einkommen 2500 2000 1500 1000 500 0 0 5 10 Schuljahre 15 20 5 3 Warum logistische Regression? Beispiel 2 Wie hängt die Besetzung einer betrieblichen Führungsposition mit der Dauer des Schulbesuches einer Person zusammen? 1. Schritt: Modellbildung „Die Wahrscheinlichkeit, dass eine Person eine betriebliche Führungsposition inne hat, steigt mit der Dauer des Schulbesuchs.“ (linearer Zusammenhang ????) 6 2. Schritt: Beobachtungsdaten gewinnen Person Herr Müller Frau Meier Herr Schulz Herr Schmidt Frau Mustermann Herr Kleinknecht Frau Dorfner Herr Beier Herr Dudenhofen Schuljahre 8 10 13 9 10 15 13 8 10 Führungsposition nein ja ja ja nein nein ja nein ja „binäre“ Kodierung: nein = 0 / ja = 1 3. Schritt: Regressionsparameter schätzen 1. Versuch: lineare Regression y = bx + a 1,2 y = 0,0347x + 0,1852 2 R = 0,026 1,0 0,8 0,6 0,4 0,2 0,0 -15 -10 -5 0 5 10 15 20 25 30 -0,2 7 Zur Analyse kategorialer Daten (hier: Führungsposition ja/nein) ist die lineare Regression nicht brauchbar Binäre Logistische Regression Vorteile: • Schätzwerte können nie > 1 oder < 0 werden • Die Regressionsgleichung simmuliert eine allmähliche Annäherung an die Extremwerte 0 und 1 (kein linearer Zusammenhang) („Maximum-Likelihood-Schätzung“) Lineare Reg.gleichung: logistische Reg.gleichung: y = bx + a e β0 + β1x π1 = 1 + e β0 + β1x Besonders wichtig! Bei der linearen Regression wird der Einfluss der erklärenden Variablen auf die abhängige Variable direkt geschätzt. Bei der logistischen Regression wird der Einfluss der erklärenden Variablen auf die Wahrscheinlichkeit geschätzt, dass die abhängige Variable den Wert ‚1‘ annimmt. 8 Lineare und Logistische Regression im Vergleich 1,2 1,0 0,8 0,6 y = 0,0347 x + 0,1852 0,4 y = 0,2 e 0 , 671 + 0 , 223 x 1 + e 0 , 671 + 0 , 223 x 0,0 -15 -10 -5 0 5 10 15 20 25 30 -0,2 Die Beziehung zwischen abhängiger (y) und erklärender Variable (x) als Wahrscheinlichkeitswert 1,2 1,0 0,8 0,6 0,4 0,2 0,0 0 5 10 15 20 25 30 9 Die Logitische Regression wird in der Praxis nicht in „Zwei-Variablen-Fällen“ wie dem Beispiel angewendet. Der Vorteil des Verfahrens besteht vielmehr darin, dass die Einflüsse mehrerer erklärender Variablen auf eine abhängige Variable gleichzeitig untersucht werden können. Das Verfahren bietet die Möglichkeit, die jeweils nicht interessierenden Variablen zu kontrollieren. 4 Datenvoraussetzungen und Datenvorbereitung für die logistische Regression 10 Datenvoraussetzungen Die abhängige Variable muss als dichotome Dummy-Variable zerlegbar sein typische ja/nein Fragestellung (Kodierung 0/1) Die unabhängigen (erklärenden) Variablen können jedwedes Messniveau besitzen. Sowohl metrische als auch nominal skalierte Daten können einfließen Die Abhängige Variable Beispielfragestellung: „Welche Faktoren beeinflussen die Wahrscheinlichkeit, zwischen 1992 und 1996 ehrenamtlich aktiv zu werden?“ (Quelle der Beispieldaten: SOEP) Kodierung der abhängigen Variable EHRE: 0 = nicht ehrenamtlich aktiv geworden 1 = ehrenamtlich aktiv geworden ACHTUNG: Es dürfen nur solche Fälle (Personen) in die Untersuchung aufgenommen werden, die prinzipiell „im Risiko sind“ ehrenamtlich aktiv zu werden. Das heißt, dass Personen, die bereits zum Beginn des Untersuchungszeitraums ehrenamtlich aktiv sind, aus der Untersuchung ausgeschlossen werden müssen. 11 Die erklärenden Variablen Welche erklärenden Variablen in die Untersuchung einbezogen werden, hängt vom Modell (oder von unserer Theorie) ab. Hier: Wir nehmen an, dass folgende Variablen die Ehrenamts-Aufnahme-Wahrscheinlichkeit beeinflussen: •Geschlecht •Erwerbsstatus •Alter •Haushaltskontext •Qualifikation Vorbereitung der Ursprungsdaten für die Regressionsschätzung metrische Variablen müssen nicht verändert werden dichotome Variablen (bspw. Geschlecht) müssen nicht verändert werden (wenn Kodierung 0/1) kategoriale Variablen mit mehr als 2 Ausprägungen müssen in dichotome Dummy-Variablen zerlegt werden 12 Beispiel für die Variablenzerlegung Höchster Schulabschluss (SCHULE) mit den Ursprungswerten 1 = Hauptschule, 2 = Realschule und 3 = Gymnasium wird zerlegt in 3 Einzelvariablen SCHULE1 (Hauptschule ja/nein): 1 wenn Hauptschulabschluss; alle anderen 0 SCHULE2 (Realschule ja/nein): 1 wenn Realschulabschluss; alle anderen 0 SCHULE3 (Abitur ja/nein): 1 wenn Abitur; alle anderen 0 ACHTUNG: Missing-Werte müssen in einer eigenen Dummy-Variable in die Schätzung einbezogen werden, also wenn SCHULE=missing, dann SCHULMIS=1 wenn kein Schulabschluss bekannt; alle anderen 0 !!! Variablenzerlegung im Beispieldatensatz Dummy Geschlecht Mann* Frau Alter 16-25 Jahre 26-40 Jahre 41-60 Jahre* älter als 60 Jahre Haushalt alleinstehend Paar ohne Kind* alleinerziehend Paar + 1 Kind Paar + 2 Kinder Paar + 3 o. mehr Kinder sonstige R_SEX Kodierung 0 1 R_AGE1 R_AGE2 R_AGE3 R_AGE4 0/1 0/1 0/1 0/1 R_HH1 R_HH2 R_HH3 R_HH4 R_HH5 R_HH6 R_HH7 0/1 0/1 0/1 0/1 0/1 0/1 0/1 Erwerbsstatus voll erwerbstätig* unregelm./teilzeit erwerbst. arbeitslos Rentner sonst. Nicht-Erwerbstätige Schulabschluss missing kein Abschluss Hauptschulabschluss Realschulabschluss* (Fach-)Hochschulreife Abschluss verbessert Dummy Kodierung R_ES1 R_ES2 R_ES3 R_ES4 R_ES5 0/1 0/1 0/1 0/1 0/1 R_SCH1 R_SCH2 R_SCH3 R_SCH4 R_SCH5 R_SCH5 0/1 0/1 0/1 0/1 0/1 0/1 * Referenzgruppe 13 ACHTUNG 1: Referenzkategorie auswählen Nicht alle erklärenden Variablen werden in die Rechnung einbezogen. Um die späteren Schätzergebnisse interpretieren zu können, muss in jedem Variablenblock eine Referenzkategorie ausgewählt werden. Alle Ergebnisse sind nur im Hinblick auf diese Referenzkategorie zu interpretieren Auswahlkriterien: • die bestbesetzte Kategorie • Interpretatorische Gründe ACHTUNG 2: „Strukturelle Nullen“ vermeiden Es sind sogenannte „Strukturelle Nullen“ zu vermeiden. „Strukturelle Nullen“ entstehen dann, wenn einzelne Kategorien der erklärenden Variablen sich logisch ausschließen. Bsp.: Kategorie Alter mit einer Ausprägung „jünger als 16 Jahre“ und Kategorie Berufsabschluss mit einer Ausprägung „Hochschulabschluss“. Solche Effekte sind nicht immer zu vermeiden, sollten aber auf jeden Fall bewußt sein und bei der Interpretation berücksichtigt werden. Außerdem empfiehlt sich ein Kreuztabellentest zwischen jeder einzelnen kategorialen erklärenden Variable und der abhängigen Variable. 14 Checkliste Nur Fälle einbeziehen, die „im Risiko“ sind abhängige Variable als dichotome Dummy-Variable nach Meßniveau und Modellannahmen sind Je erklärenden Variablen aufzubereiten die Nicht zuviele erklärende Variablen einführen. Faustregel: Pro 100 Analysefälle eine erklärende Variable. In unserem Beispielfall: ca. 6000 Personen im Analysedatensatz, d.h. es sollten nicht mehr als maximal 60 erklärende Variablen einbezogen werden (wir haben 23 ausgewählt) Sensible Auswahl der Referenzkategorie „Strukturelle Nullen“ vermeiden 5 Interpretation der Regressionsergebnisse 15 Koeffizient Signifikanz Geschlecht Männer Frauen Erwerbsstatus regelm. Vollzeit unregelm./Teilzeit arbeitslos Rentner sonst. nicht-erwerbstätige Alter 16-25 Jahre 26-40 Jahre 41-60 Jahre älter als 60 Jahre Haushaltstyp Ein-Personen-Haushalt Paar ohne Kinder Alleinerziehend Paar mit einem Kind Paar mit zwei Kindern Paar mit drei Kindern + sonst. Haushalte Schulabschluss missing kein Abschluss Hauptschulabschluss Realschulabschluss (Fach-)Hochschulreife Abschluss verbessert Konstante n Pseudo R2 RG = Referenzgruppe RG -0,278*** – 0,000 RG 0,189 -0,199 -0,051 0,358*** – 0,132 0,218 0,713 0,003 -0,006 0,033 RG -0,374*** 0,968 0,697 – 0,008 -0,314** RG -0,214 -0,026 0,284*** 0,379*** -0,273 0,011 – 0,225 0,801 0,006 0,010 0,139 0,317 -0,588** -0,116 RG 0,057 0,357 -1,291*** 6012 0,043 0,338 0,016 0,161 – 0,589 0,142 0,000 Signifikanz ***: p <= 0,01 **: 0,01 < p <= 0,05 *: 0,05 < p <= 0,1 Abhängige Variable: Ehrenamt aufgenommen Haushaltstyp Ein-Personen-Haushalt Paar ohne Kinder Alleinerziehend Paar mit einem Kind Paar mit zwei Kindern Paar mit drei Kindern + sonst. Haushalte Schulabschluss missing kein Abschluss Hauptschulabschluss Realschulabschluss (Fach-)Hochschulreife Abschluss verbessert -0,314** RG -0,214 -0,026 0,284*** 0,379*** -0,273 0,317 -0,588** -0,116 RG 0,057 0,357 16 Checkliste Wichtig sind insbesondere zwei Werte: Die Koeffizienten (SPSS: „Regressionskoeffizient B“) und das Signivikanzniveau (SPSS: „Sig.“). Negative (positive) Koeffizienten bedeuten einen negativen (positiven) Zusammenhang Bei kategorialen Dummies: Wenn Ausprägung zutrifft, reduziert (erhöht) sich die Wahrscheinlichkeit, dass die abhäbngige Variable den Wert 1 annimmt. Bei metrischen Variablen: Wenn sich die unabhängige Variable um eine Einheit erhöht, dann erhöht (verringert) sich die Wahrscheinlichkeit, dass die abhängige Variable den Wert 1 annimmt. Checkliste (Fortsetzung) Koeffizienten sind nur in der Richtung des Zusammenhangs zu interpretieren („eine Variabel erhöht/vermindert die Wahrscheinlichkeit, dass ...“) Koeffizienten sind nur in Bezug auf die jeweilige Referenzgruppe zu interpretieren. Es können nur statistisch interpretiert werden. Ab welchem Signifikanzniveau Zusammenhänge als bestätigt gelten, ist Definitionssache (allerdings „Signifikanzgrenze“ > 0,1 in der Forschungsliteratur unüblich). signifikante Ergebnisse 17 6 Die Regressionsanalyse als iteratives Verfahren 1. Empfehlung Es empfiehlt sich, nicht nur ein einziges Modell zu schätzen, sondern iterativ vorzugehen, in dem man nach und nach einzelne „Variablenblöcke“ in die Schätzungen einbezieht. Dabei ist darauf zu achten: a) Wie verändern sich die Koeffizienten (Vorzeichenwechsel)? b) Wie verändert sich die Signifikanz? 18 Schätzung Schätzung Schätzung Schätzung 1 2 3 4 Geschlecht Männer Frauen Erwerbsstatus regelm. Vollzeit unregelm./Teilzeit arbeitslos Rentner sonst. Nicht-erwerbstät. Alter 16-25 Jahre 26-40 Jahre 41-60 Jahre älter als 60 Jahre Haushaltstyp Ein-Personen-Haushalt Paar ohne Kinder Alleinerziehend Paar mit einem Kind Paar mit zwei Kindern Paar mit drei Kindern + sonst. Haushalte Schulabschluss missing kein Abschluss Hauptschulabschluss Realschulabschluss (Fach-)Hochschulreife Abschluss verbessert Konstante n Pseudo R2 RG = Referenzgruppe RG RG RG RG -0,292*** -0,320*** -0,285*** -0,278*** RG 0,220* -0,202 -0,497*** 0,454*** RG 0,262** -0,193 -0,057 0,459*** RG 0,203 -0,208 -0,067 0,400*** RG 0,189 -0,199 -0,051 0,358*** 0,067 0,074 -0,006 0,114 0,054 0,033 RG RG RG -0,507*** -0,384*** -0,374*** -0,302** RG -0,224 -0,020 0,308*** 0,383*** -0,273 -0,314** RG -0,214 -0,026 0,284*** 0,379*** -0,273 0,317 -0,588** -0,116 RG 0,057 0,357 -1,293*** -1,322*** -1,358*** -1,291*** 6012 6012 6012 6012 0,024 0,029 0,039 0,043 2. Empfehlung Es empfiehlt sich, nach der Schätzung eines Gesamtmodells u.U. weitere differenziertere Schätzungen vorzunehmen. Beispielsweise bietet es sich in unserem Beispiel an, alle Modelle jeweils nochmals getrennt für Männer und Frauen zu berechnen. Begründung: Durch die gemeinsame Schätzung können gegenläufige Einflüsse sich gegenseitig aufheben und daher nicht erkannt werden. ACHTUNG: Auf Fallzahlen achten ! 19 Erwerbsstatus regelm. Vollzeit unregelm./Teilzeit arbeitslos Rentner sonst. nicht-erwerbstätige Alter 16-25 Jahre 26-40 Jahre 41-60 Jahre älter als 60 Jahre Haushaltstyp Ein-Personen-Haushalt Paar ohne Kinder Alleinerziehend Paar mit einem Kind Paar mit zwei Kindern Paar mit drei Kindern + sonst. Haushalte Schulabschluss missing kein Abschluss Hauptschulabschluss Realschulabschluss (Fach-)Hochschulreife Abschluss verbessert Konstante n Pseudo R2 RG = Referenzgruppe Männer Frauen RG 0,481 -0,174 -0,219 0,214 RG 0,192 -0,210 0,076 0,443*** 0,017 0,016 RG -0,330 -0,053 0,010 RG -0,345* -0,183 RG -0,211 -0,079 0,217 0,318 -0,112 -0,447*** RG -0,181 0,029 0,334** 0,432** -0,463* 0,776* -0,342 -0,044 RG -0,156 0,356 -1,258*** 2586 0,026 -0,273 -0,858** -0,203* RG 0,321** 0,440 -1,603*** 3426 0,057 7 „Odd Ratios“– eine weitere Darstellungsformen der Schätzergebnisse 20 Problem Durch die Schätzung der Koeffizienten können wir zwar die Signifikanz und die Richtung des Zusammenhangs zwischen abhängiger und unabhängiger Variable bestimmen, aber es sind keine Aussagen über die Stärke des Zusammenhangs möglich! Alternative: Berechnung von „Odd Ratios“ Exkurs: Was sind „Odd Ratios“ und wie werden sie interpretiert? Beispiel (a) zur Berechnung und Interpretation von „Odd Ratios“ A 1 2 3 4 5 6 7 8 9 10 11 12 Männer Frauen (RG) B C sonstige Todesursache Hirntumor 60000 100 35000 24 Prozentsatzdifferenz MännerFrauen 0,097865 Differenz der beiden Odds 0,000981 Odd Ratio Mann/Frau (RG) 2,430556 "Wahrscheinlichkeits-Ratio" 2,428175 Diff. Zw. Odd & Wahrscheinlichkeits-Ratio 0,002380 D n 60100 35024 E F Wahrscheinlichkeit d. GegenwahrscheinTodes durch HT (in %) lichkeit sonst. Tod (in %) 0,166389 99,833611 0,068524 99,931476 G Odds (Tod durch HT/sonst. Gründe) 0,001667 0,000686 Die Wahrscheinlichkeit von Männern, an einem Gehirntumor zu sterben, ist rund 2,4mal so groß wie die Wahrscheinlichkeit von Frauen, an einem Gehirntumor zu sterben 21 Beispiel (b) zur Berechnung und Interpretation von „Odd Ratios“ A 1 2 3 4 5 6 7 8 9 10 11 12 Männer Frauen (RG) B C sonstige Todesursache Hirntumor 60000 1500 35000 240 Prozentsatzdifferenz MännerFrauen 1,757980 Differenz der beiden Odds 0,018143 Odd Ratio Mann/Frau (RG) 3,645833 "Wahrscheinlichkeits-Ratio" 3,581301 Diff. Zw. Odd & Wahrscheinlichkeits-Ratio 0,064533 D n 61500 35240 E F Wahrscheinlichkeit d. GegenwahrscheinTodes durch HT (in %) lichkeit sonst. Tod (in %) 2,439024 97,560976 0,681044 99,318956 G Odds (Tod durch HT/sonst. Gründe) 0,025000 0,006857 Die Wahrscheinlichkeit von Männern, an einem Gehirntumor zu sterben, ist rund 3,6mal so groß wie die Wahrscheinlichkeit von Frauen, an einem Gehirntumor zu sterben Beispiel (c) zur Berechnung und Interpretation von „Odd Ratios“ A 1 2 3 4 5 6 7 8 9 10 11 12 Männer Frauen (RG) B C sonstige Todesursache Hirntumor 60000 1000 35000 1000 Prozentsatzdifferenz MännerFrauen -1,138434 Differenz der beiden Odds -0,011905 Odd Ratio Mann/Frau (RG) 0,583333 "Wahrscheinlichkeits-Ratio" 0,590164 Diff. Zw. Odd & Wahrscheinlichkeits-Ratio D n 61000 36000 E F Wahrscheinlichkeit d. GegenwahrscheinTodes durch HT (in %) lichkeit sonst. Tod (in %) 1,639344 98,360656 2,777778 97,222222 G Odds (Tod durch HT/sonst. Gründe) 0,016667 0,028571 -0,006831 Die Wahrscheinlichkeit von Männern, an einem Gehirntumor zu sterben, ist rund 0,6mal so groß wie die Wahrscheinlichkeit von Frauen, an einem Gehirntumor zu sterben 22 Wie sind Odd Ratios im Regressionsmodell zu interpretieren? Die Werte von Odd Ratios (OR) liegen theoretisch zwischen 0 und unendlich. OR < 1 bedeutet für die Analysegruppe eine geringere Wahrscheinlichkeit, dass die abhängige Variable „1“ ergibt, als die Referenzgruppe. OR > 1 bedeutet für die Analysegruppe eine höhere Wahrscheinlichkeit, dass die abhängige Variable „1“ ergibt, als die Referenzgruppe. Was ist bei der Interpretation von Odd Ratios im Regressionsmodell zu beachten? a) Der „einfache“ Fall: OR > 1 ORs mit einem Wert > 1 sind relativ einfach zu interpretieren. Bsp.: Frau: Referenzgruppe / Mann: OR= 1,432*** Abhängige Variable: Ehrenamtsaufnahme „Männer haben (unter Kontrolle aller anderen Variablen im Modell) gegenüber Frauen eine um 43,2 % erhöhte Wahrscheinlichkeit, ein Ehrenamt aufzunehmen.“ 23 b) Der „knifflige“ Fall: OR < 1 ORs mit einem Wert < 1 sind schwieriger zu interpretieren. Bsp.: Frau: Referenzgruppe / Mann: OR= 0,650*** Abhängige Variable: Ehrenamtsaufnahme „Männer haben (unter Kontrolle aller anderen Variablen im Modell) gegenüber Frauen eine 0,650mal so große Wahrscheinlichkeit, ein Ehrenamt aufzunehmen.“ ACHTUNG: Das heißt NICHT, dass Männer eine um 35 % verringerte Wahrscheinlichkeit der Ehrenamtsaufnahme gegenüber Frauen aufweisen (also nicht 1 - 0,650 = 0,350) !!! Interpretationsbeispiele bei OR < 1 P = (1 / 0,95)-1= 0,0526 OR 0,95 0,90 0,85 0,80 0,75 0,70 0,65 0,60 0,55 0,50 0,45 0,40 0,35 0,30 1-OR (Falsch!) 5,00 10,00 15,00 20,00 25,00 30,00 35,00 40,00 45,00 50,00 55,00 60,00 65,00 70,00 % 5,26 11,11 17,65 25,00 33,33 42,86 53,85 66,67 81,82 100,00 122,22 150,00 185,71 233,33 P = (1 / 0,70)-1= 0,4286 P = (1 / 0,50)-1= 1 ! VORSICHT ! ??? A hat eine um 100 % verringerte Wahrscheinlichkeit als B ??? 24 Der „noch kniffligere“ Fall: OR <= 0,5 Interpretationsbeispiele Bei OR Werten <= 0,5 bietet sich eine umgekehrte Interpretation an. OR 0,95 0,90 0,85 0,80 0,75 0,70 0,65 0,60 0,55 0,50 0,45 0,40 0,35 0,30 1-OR (Falsch!) 5,00 10,00 15,00 20,00 25,00 30,00 35,00 40,00 45,00 50,00 55,00 60,00 65,00 70,00 % 5,26 11,11 17,65 25,00 33,33 42,86 53,85 66,67 81,82 100,00 122,22 150,00 185,71 233,33 Die Referenzgruppe hat eine doppelt so hohe Wahrscheinlichkeit wie die Analysegruppe Die Referenzgruppe hat eine um 122 % erhöhte Wahrscheinlichkeit gegenüber der Analysegruppe 8 Ausblick 25 Die weiteren Sitzungen 3. Sitzung (Praxis) Donnerstag, 27.11.2003, 9.30-12.00 Uhr • Kurze Wiederholung der wichtigen methodischen Punkte • Gemeinsame Begutachtung der „Übungs-Rohdaten“ und Plan zur Aufbereitung der Daten für die logistische Regression 4. Sitzung (Praxis) Donnerstag, 11.12.2003, 9.30-12.00 Uhr • Einführung in STATA • Aufbereitung der Daten in STATA 5. Sitzung (Praxis) Donnerstag, 29.01.2004, 9.30-12.00 Uhr • Anwendung der eigentlichen Logistischen Regression in STATA • Diskussion und Interpretation der Schätzergebnisse 6. Sitzung (Praxis) (optional) Donnerstag, 26.02.2004, 9.30-12.00 Uhr • Bei Bedarf: Gemeinsamer Einstieg in eine neue Analyse mit anderer Fragestellung und anderen Daten 7. Sitzung (Theorie) Donnerstag, 25.03.2004, 9.30-12.00 Uhr • Ausblick: Weitere multivariate Analyseverfahren (bspw. multiple Logistische Regression, Übergangsratenmodelle etc.); Gemeinsamkeiten und Unterschiede zur Binären Logistischen Regression Schlussbemerkung Trotz der Vorzüge und Möglichkeiten multivariater Analyseinstrumente insbesondere für die sozialwissenschaftliche Forschung sollten scheinbar „einfache“ deskriptive Verfahren nicht vernachlässigt und deren Nutzen nicht unterschätzt werden: „Generally, descriptive studies are thus much more relevant for sociology as an explanatory enterprise than current journals and university curricula would have us belief.“ (Wippler/Lindenberg 1987: 159) 26