Statistik II – Übung 1: Einfache lineare Regression

Transcription

Statistik II – Übung 1: Einfache lineare Regression
Statistik II – Übung 1: Einfache lineare Regression
Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial
benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der unter 6-jährigen Kinder, die im selben
Haushalt wie die Individuen leben. Verwenden Sie dazu den Datensatz “Job Corps data.sav“. Die
abhängige Variable „earny3“ gibt das wöchentliche Lohneinkommen (in US Dollar) an, die
unabhängige Variable „kidsunder6yr3“ die Anzahl der unter 6-jährigen Kinder im Haushalt. Bitte
bearbeiten Sie Aufgaben 1-5 in Gruppen von bis zu 4 Studierenden (vergessen Sie nicht die Namen!)
und reichen Sie die Lösungen VOR der 1. PC Übung ein.
1. Argumentieren Sie, warum das Vorhandensein kleiner Kinder überhaupt einen Einfluss auf
Lohneinkommen (und Erwerbsleben) haben könnte. (Hinweis: es gibt hier keine strikt
richtigen oder falschen Antworten.)
Eltern oder ältere Geschwister könnten entweder weniger arbeiten, um Kinder zu beaufsichtigen,
oder mehr, um mehr Einkommen für den (grösseren) Haushalt zu erzielen.
2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für „earny3“ und
„kidsunder6yr3“ und kommentieren Sie diese kurz.
Analyze > Descriptive Statistics > Descriptives
Descriptive Statistics
N
Minimum
Maximum
Mean
Std. Deviation
earny3
11146
0
1918
171.98
165.483
kidsunder6yr3
15386
0
7
.41
.744
Valid N (listwise)
11146
3. Untersuchen Sie den Zusammenhang zwischen „earny3“ und „kidsunder6yr3“ visuell anhand
eines Streudiagramms (mit „earny3“ auf der Y-Achse und „kidsunder6yr3“ auf der X-Achse).
Welchen Zusammenhang können Sie erkennen?
Graphs > Legacy Dialogs > Scatter/Dot > Simple Scatter > Y Axis: earny3 > X Axis: kidsunder6yr3
4. Fügen Sie eine lineare Regressionslinie zu Ihrem Streudiagramm hinzu und kommentieren Sie
diese kurz.
Double click on graph and add regression line by clicking on regression line icon
5. Regressieren Sie „earny3“ (linear) auf
Regressionskoeffizienten.
„kidsunder6yr3“ und interpretieren Sie die
Analyze > regression > linear > Dependent: earny3 > Independent: kidsunder6yr3
Model Summary
Model
1
R
.065
Adjusted R
Std. Error of the
Square
Estimate
R Square
a
.004
.004
165.140
a. Predictors: (Constant), kidsunder6yr3
Coefficients
a
Standardized
Unstandardized Coefficients
Model
1
B
Std. Error
(Constant)
178.653
1.841
kidsunder6yr3
-13.700
1.991
Coefficients
Beta
t
-.065
Sig.
97.060
.000
-6.881
.000
a. Dependent Variable: earny3
6. Erklären Sie das Konzept „Unverzerrtheit“
Im Durchschnitt trifft ein Schätzer den wahren Wert: E ( ˆ )  
7. Diskutieren Sie, unter welchen Annahmen der Regressionskoeffizient von „kidsunder6yr3“
ein unverzerrter Schätzer des kausalen Effekts der Anzahl der unter 6-jährigen Kinder auf das
wöchentliche Lohneinkommen ist (und nicht nur eine Korrelation widerspiegelt). Sind diese
Annahmen realistischerweise erfüllt?
Annahme 1: lineares Modell (konstanter Effekt von Anzahl der Kinder auf Lohneinkommen, egal
wie hoch die Anzahl der Kinder ist); Annahme 2: zufällige Stichprobe (repräsentativ für die
Grundgesamtheit); Annahme 3: E(u|x)=0 - Exogenität: Es ist nicht realistisch, dass Exogenität
erfüllt ist (die Entscheidung von Kindern ist nicht zufällig und Faktoren die Kinderentscheidung
beeinflussen, können auch Arbeitsentscheidung beeinflussen, zB berufliche Perspektiven,
Motivation, Präferenz für Familie oder Arbeit…); Annahme 4: Variation in x, ist in diesem Fall
vorhanden (Anzahl der Kinder nimmt mehrere Werte an in unserer Stichprobe).
8. Erklären Sie das Konzept von „Effizienz“
Schätzer hat kleinstmögliche Varianz/ kleinstmöglichen Standardfehler unter allen Schätzern.
9. Inwiefern hängt die Stichprobenvarianz des OLS Schätzers von der Varianz des Fehlerterms
und der erklärenden Variable ab?
Stichprobenvarianz steigt mit Varianz des Fehlerterms und sinkt mit Varianz der erklärenden
Variablen.
10. Interpretieren Sie die p-Werte hinsichtlich statistischer Signifikanz. Inwiefern hängen die pWerte mit dem Standardfehler des Schätzers zusammen?
Grosser Standardfehler => viel Unsicherheit => grosser p-Wert
11. Was versteht man unter dem R2 und was sagt es aus? Kommentieren Sie das R2 der
Regression aus Aufgabe 5.
Das R2 ist ein Mass dafür, wie gut die unabhängige Variable x die abhängige Variable y erklärt:
Anteil der Stichprobenvariation in y der durch x erklärt wird.
Model Summary
Model
1
R
.065
Adjusted R
Std. Error of the
Square
Estimate
R Square
a
.004
.004
165.140
a. Predictors: (Constant), kidsunder6yr3
Das 𝑅 2 (0.4%) ist in diesem Fall gering (x hat einen geringen Erklärungsgehalt für y)
12. Was würde ein R2 von 1 bedeuten, was ein R2 von 0?
1: x erklärt y perfekt; 0: x erklärt y überhaupt nicht
13. Was versteht man unter den Residuen in einer Regressionsanalyse? Geben Sie eine intuitive
Erklärung.
Jener „Teil“ von y der nicht von x erklärt wird. Abweichungen vom Mittelwert von y für ein
bestimmtes Niveau von x.
14. Stellen Sie die Residuen (auf der Y-Achse) und die vorhergesagten Werte von „earny3“ (auf
der X-Achse) grafisch dar. Kommentieren Sie die Grafik hinsichtlich Homoskedastizität. Was
würde eine Verletzung der Homoskedastizität für unsere lineare Regression implizieren?
Analyze > regression > linear > Dependent: earny3 > Independent: kidsunder6yr3 > Plots > Y:
ZRESID > X: ZPRED > ok
wobei ZRESID standardisierte Residuen (regression standardized residuals) sind (wobei ein
Residuum wie folgt definiert ist: û = y − ŷ) und ZPRED standardisierte vorhergesagte Werte
(standardized predicted values) von y, d.h. ŷ, sind.
15. Überprüfen Sie die Normalverteilung der Residuen anhand eines Histogramms und eines
Normalverteilungsdiagramms (normal probability plot).
Analyze > regression > linear > Dependent: earny3 > Independent: kidsunder6yr3 > Plots > Y:
ZRESID > X: ZPRED > Histogram > normal probability plot > continue > ok
Die dicke Linie des Probability-Probability-Plots (P-P-Plot) vergleicht zwei kumulative
Verteilungsfunktionen: die empirische Verteilung der Residuen (d.h. deren Verteilung in der
Stichprobe) und die Normalverteilung. Die (dünne) 45-Grad-Linie entspricht einer perfekten
Übereinstimmung der empirische Verteilung der Residuen und der Normalverteilung. Falls die
dicke Linie oberhalb (unterhalb) der 45-Grad-Linie liegt, ist die kumulative Wahrscheinlichkeit der
empirischen Verteilung niedriger (höher) als jene der Normalverteilung für einen bestimmten
Wert der Residuen. Bspw. bei jenem Wert der Residuen, der 15% der kumulativen
Normalverteilung entspricht, beobachten wir eine empirische Wahrscheinlichkeit von 0.
16. Was ergibt die Summe der geschätzten Residuen und warum.
Ergibt 0, weil Regressionsgerade so „gelegt“ wird, dass sich die Abweichungen genau aufheben
(wird durch Minimierung der quadrierten Abweichungen erreicht)
17. Regressieren Sie „earny3“ (linear) auf „kidsunder6yr3“ in getrennten Stichproben für Frauen
und Männer und interpretieren Sie die Regressionskoeffizienten.
Data > Select cases > if condition > female=1 (oder female=0)
Analyze > regression > linear > Dependent: earny3 > Independent: kidsunder6yr3
Female=0
b
Model Summary
Model
1
R
.067
Adjusted R
Std. Error of the
Square
Estimate
R Square
a
.005
a. Predictors: (Constant), kidsunder6yr3
.004
177.417
b. Dependent Variable: earny3
Coefficients
a
Standardized
Unstandardized Coefficients
Model
1
B
(Constant)
Coefficients
Std. Error
Beta
191.205
2.433
19.681
3.636
kidsunder6yr3
t
.067
Sig.
78.577
.000
5.413
.000
a. Dependent Variable: earny3
Female=1
b
Model Summary
Model
1
R
.105
Adjusted R
Std. Error of the
Square
Estimate
R Square
a
.011
.011
139.415
a. Predictors: (Constant), kidsunder6yr3
b. Dependent Variable: earny3
Coefficients
a
Standardized
Unstandardized Coefficients
Model
1
B
Std. Error
(Constant)
150.891
2.672
kidsunder6yr3
-16.350
2.251
Coefficients
Beta
t
-.105
Sig.
56.469
.000
-7.264
.000
a. Dependent Variable: earny3
Aus der Regressionsanalyse schliessen wir, dass die Anzahl der Kinder unterschiedliche
Zusammenhänge mit dem Lohn von Frauen und Männern aufweist.
Bei Frauen geht das wöchentliche Lohneinkommen mit einem zusätzlichen Kind um ungefähr 16
Dollar zurück. Der geschätzte Koeffizient ist statistisch signifikant auf dem 1% Niveau.
Bei Männern ist der Zusammenhang zwischen der Anzahl der Kinder und dem wöchentlichen
Lohneinkommen positiv. Pro zusätzliches Kind steigt das durchschnittliche wöchentliche
Lohneinkommen von Männern um ungefähr 19 Dollar. Der geschätzte Koeffizient ist statistisch
signifikant auf dem 1% Niveau.
Die Ergebnisse könnten durch eine traditionelle Rollenverteilung in der Familie begründet sein:
Während Frauen mit mehr Kindern ihren Beschäftigungsgrad reduzieren könnten, um sich verstärkt
der Kindererziehung zu widmen, könnten Männer mit mehr Kindern mehr arbeiten, um die Familie
finanzieren zu können.

Documents pareils