Statistik II – Übung 1: Einfache lineare Regression
Transcription
Statistik II – Übung 1: Einfache lineare Regression
Statistik II – Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der unter 6-jährigen Kinder, die im selben Haushalt wie die Individuen leben. Verwenden Sie dazu den Datensatz “Job Corps data.sav“. Die abhängige Variable „earny3“ gibt das wöchentliche Lohneinkommen (in US Dollar) an, die unabhängige Variable „kidsunder6yr3“ die Anzahl der unter 6-jährigen Kinder im Haushalt. Bitte bearbeiten Sie Aufgaben 1-5 in Gruppen von bis zu 4 Studierenden (vergessen Sie nicht die Namen!) und reichen Sie die Lösungen VOR der 1. PC Übung ein. 1. Argumentieren Sie, warum das Vorhandensein kleiner Kinder überhaupt einen Einfluss auf Lohneinkommen (und Erwerbsleben) haben könnte. (Hinweis: es gibt hier keine strikt richtigen oder falschen Antworten.) Eltern oder ältere Geschwister könnten entweder weniger arbeiten, um Kinder zu beaufsichtigen, oder mehr, um mehr Einkommen für den (grösseren) Haushalt zu erzielen. 2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für „earny3“ und „kidsunder6yr3“ und kommentieren Sie diese kurz. Analyze > Descriptive Statistics > Descriptives Descriptive Statistics N Minimum Maximum Mean Std. Deviation earny3 11146 0 1918 171.98 165.483 kidsunder6yr3 15386 0 7 .41 .744 Valid N (listwise) 11146 3. Untersuchen Sie den Zusammenhang zwischen „earny3“ und „kidsunder6yr3“ visuell anhand eines Streudiagramms (mit „earny3“ auf der Y-Achse und „kidsunder6yr3“ auf der X-Achse). Welchen Zusammenhang können Sie erkennen? Graphs > Legacy Dialogs > Scatter/Dot > Simple Scatter > Y Axis: earny3 > X Axis: kidsunder6yr3 4. Fügen Sie eine lineare Regressionslinie zu Ihrem Streudiagramm hinzu und kommentieren Sie diese kurz. Double click on graph and add regression line by clicking on regression line icon 5. Regressieren Sie „earny3“ (linear) auf Regressionskoeffizienten. „kidsunder6yr3“ und interpretieren Sie die Analyze > regression > linear > Dependent: earny3 > Independent: kidsunder6yr3 Model Summary Model 1 R .065 Adjusted R Std. Error of the Square Estimate R Square a .004 .004 165.140 a. Predictors: (Constant), kidsunder6yr3 Coefficients a Standardized Unstandardized Coefficients Model 1 B Std. Error (Constant) 178.653 1.841 kidsunder6yr3 -13.700 1.991 Coefficients Beta t -.065 Sig. 97.060 .000 -6.881 .000 a. Dependent Variable: earny3 6. Erklären Sie das Konzept „Unverzerrtheit“ Im Durchschnitt trifft ein Schätzer den wahren Wert: E ( ˆ ) 7. Diskutieren Sie, unter welchen Annahmen der Regressionskoeffizient von „kidsunder6yr3“ ein unverzerrter Schätzer des kausalen Effekts der Anzahl der unter 6-jährigen Kinder auf das wöchentliche Lohneinkommen ist (und nicht nur eine Korrelation widerspiegelt). Sind diese Annahmen realistischerweise erfüllt? Annahme 1: lineares Modell (konstanter Effekt von Anzahl der Kinder auf Lohneinkommen, egal wie hoch die Anzahl der Kinder ist); Annahme 2: zufällige Stichprobe (repräsentativ für die Grundgesamtheit); Annahme 3: E(u|x)=0 - Exogenität: Es ist nicht realistisch, dass Exogenität erfüllt ist (die Entscheidung von Kindern ist nicht zufällig und Faktoren die Kinderentscheidung beeinflussen, können auch Arbeitsentscheidung beeinflussen, zB berufliche Perspektiven, Motivation, Präferenz für Familie oder Arbeit…); Annahme 4: Variation in x, ist in diesem Fall vorhanden (Anzahl der Kinder nimmt mehrere Werte an in unserer Stichprobe). 8. Erklären Sie das Konzept von „Effizienz“ Schätzer hat kleinstmögliche Varianz/ kleinstmöglichen Standardfehler unter allen Schätzern. 9. Inwiefern hängt die Stichprobenvarianz des OLS Schätzers von der Varianz des Fehlerterms und der erklärenden Variable ab? Stichprobenvarianz steigt mit Varianz des Fehlerterms und sinkt mit Varianz der erklärenden Variablen. 10. Interpretieren Sie die p-Werte hinsichtlich statistischer Signifikanz. Inwiefern hängen die pWerte mit dem Standardfehler des Schätzers zusammen? Grosser Standardfehler => viel Unsicherheit => grosser p-Wert 11. Was versteht man unter dem R2 und was sagt es aus? Kommentieren Sie das R2 der Regression aus Aufgabe 5. Das R2 ist ein Mass dafür, wie gut die unabhängige Variable x die abhängige Variable y erklärt: Anteil der Stichprobenvariation in y der durch x erklärt wird. Model Summary Model 1 R .065 Adjusted R Std. Error of the Square Estimate R Square a .004 .004 165.140 a. Predictors: (Constant), kidsunder6yr3 Das 𝑅 2 (0.4%) ist in diesem Fall gering (x hat einen geringen Erklärungsgehalt für y) 12. Was würde ein R2 von 1 bedeuten, was ein R2 von 0? 1: x erklärt y perfekt; 0: x erklärt y überhaupt nicht 13. Was versteht man unter den Residuen in einer Regressionsanalyse? Geben Sie eine intuitive Erklärung. Jener „Teil“ von y der nicht von x erklärt wird. Abweichungen vom Mittelwert von y für ein bestimmtes Niveau von x. 14. Stellen Sie die Residuen (auf der Y-Achse) und die vorhergesagten Werte von „earny3“ (auf der X-Achse) grafisch dar. Kommentieren Sie die Grafik hinsichtlich Homoskedastizität. Was würde eine Verletzung der Homoskedastizität für unsere lineare Regression implizieren? Analyze > regression > linear > Dependent: earny3 > Independent: kidsunder6yr3 > Plots > Y: ZRESID > X: ZPRED > ok wobei ZRESID standardisierte Residuen (regression standardized residuals) sind (wobei ein Residuum wie folgt definiert ist: û = y − ŷ) und ZPRED standardisierte vorhergesagte Werte (standardized predicted values) von y, d.h. ŷ, sind. 15. Überprüfen Sie die Normalverteilung der Residuen anhand eines Histogramms und eines Normalverteilungsdiagramms (normal probability plot). Analyze > regression > linear > Dependent: earny3 > Independent: kidsunder6yr3 > Plots > Y: ZRESID > X: ZPRED > Histogram > normal probability plot > continue > ok Die dicke Linie des Probability-Probability-Plots (P-P-Plot) vergleicht zwei kumulative Verteilungsfunktionen: die empirische Verteilung der Residuen (d.h. deren Verteilung in der Stichprobe) und die Normalverteilung. Die (dünne) 45-Grad-Linie entspricht einer perfekten Übereinstimmung der empirische Verteilung der Residuen und der Normalverteilung. Falls die dicke Linie oberhalb (unterhalb) der 45-Grad-Linie liegt, ist die kumulative Wahrscheinlichkeit der empirischen Verteilung niedriger (höher) als jene der Normalverteilung für einen bestimmten Wert der Residuen. Bspw. bei jenem Wert der Residuen, der 15% der kumulativen Normalverteilung entspricht, beobachten wir eine empirische Wahrscheinlichkeit von 0. 16. Was ergibt die Summe der geschätzten Residuen und warum. Ergibt 0, weil Regressionsgerade so „gelegt“ wird, dass sich die Abweichungen genau aufheben (wird durch Minimierung der quadrierten Abweichungen erreicht) 17. Regressieren Sie „earny3“ (linear) auf „kidsunder6yr3“ in getrennten Stichproben für Frauen und Männer und interpretieren Sie die Regressionskoeffizienten. Data > Select cases > if condition > female=1 (oder female=0) Analyze > regression > linear > Dependent: earny3 > Independent: kidsunder6yr3 Female=0 b Model Summary Model 1 R .067 Adjusted R Std. Error of the Square Estimate R Square a .005 a. Predictors: (Constant), kidsunder6yr3 .004 177.417 b. Dependent Variable: earny3 Coefficients a Standardized Unstandardized Coefficients Model 1 B (Constant) Coefficients Std. Error Beta 191.205 2.433 19.681 3.636 kidsunder6yr3 t .067 Sig. 78.577 .000 5.413 .000 a. Dependent Variable: earny3 Female=1 b Model Summary Model 1 R .105 Adjusted R Std. Error of the Square Estimate R Square a .011 .011 139.415 a. Predictors: (Constant), kidsunder6yr3 b. Dependent Variable: earny3 Coefficients a Standardized Unstandardized Coefficients Model 1 B Std. Error (Constant) 150.891 2.672 kidsunder6yr3 -16.350 2.251 Coefficients Beta t -.105 Sig. 56.469 .000 -7.264 .000 a. Dependent Variable: earny3 Aus der Regressionsanalyse schliessen wir, dass die Anzahl der Kinder unterschiedliche Zusammenhänge mit dem Lohn von Frauen und Männern aufweist. Bei Frauen geht das wöchentliche Lohneinkommen mit einem zusätzlichen Kind um ungefähr 16 Dollar zurück. Der geschätzte Koeffizient ist statistisch signifikant auf dem 1% Niveau. Bei Männern ist der Zusammenhang zwischen der Anzahl der Kinder und dem wöchentlichen Lohneinkommen positiv. Pro zusätzliches Kind steigt das durchschnittliche wöchentliche Lohneinkommen von Männern um ungefähr 19 Dollar. Der geschätzte Koeffizient ist statistisch signifikant auf dem 1% Niveau. Die Ergebnisse könnten durch eine traditionelle Rollenverteilung in der Familie begründet sein: Während Frauen mit mehr Kindern ihren Beschäftigungsgrad reduzieren könnten, um sich verstärkt der Kindererziehung zu widmen, könnten Männer mit mehr Kindern mehr arbeiten, um die Familie finanzieren zu können.