klassischen linearen Modell - Helmut-Schmidt

Transcription

klassischen linearen Modell - Helmut-Schmidt
Grundlagen der Ökonometrie
Wintertrimester 2011
Vorlesung
Gabriel Frahm
Helmut-Schmidt-Universität
Lehrstuhl für Angewandte Stochastik
Fächergruppe Mathematik/Statistik
22043 Hamburg
Zu meiner Person
Personalien: PD Dr. Gabriel Frahm
Lehrstuhl für Angewandte Stochastik
E-Mail: [email protected]
URL: www.hsu-hh.de/stochastik
Sprechstunde: Montags, 12:30 Uhr
Ort: Geb. H01, Eb. 1, Raum 1372
Laufbahn:
Universität zu Köln:
– Lehrstuhl für Finanzierungslehre sowie
– Lehrstuhl für Statistik & Ökonometrie.
Universität Münster:
– Lehrstuhl für Ökonometrie und empirische WiFo.
1
Zu meiner Person
Laufbahn:
Forschungsinstitute / Praxiserfahrung:
– Center of Advanced European Studies and Research,
– NEC Laboratories Europe,
– WestLB sowie diverse Beratungsprojekte.
Forschung:
Copulas, Extremwerttheorie, Random Matrix Theory,
Portfoliooptimierung, robuste Kovarianzmatrizen,
Missing-Data Analysis, multiples Testen.
Lehre:
Econometrics, Time Series Analysis,
Panel Data Analysis, Statistik, Mathematik,
Entscheidungs- und Spieltheorie.
2
Zur Veranstaltung
Name:
Grundlagen der Ökonometrie.
Zielgruppe:
Bachelor VWL im 5. Trimester.
Vorlesungen: Montags von 9:45 bis 11:15 Uhr in H3.
Übungen:
Montags von 14:00 bis 15:30 Uhr in H4.
Die Übungen beginnen am 17.01.2011.
Materialien:
http://www.hsu-hh.de/stochastik/
Prüfung:
Klausur am 15.04.2011 von 12:30 bis 14:30 Uhr
in Raum 1002.
3
Inhaltsverzeichnis
1 Grundprobleme der Ökonometrie
11
1.1 Was ist Ökonometrie? . . . . . . . . . . . . . . . . . 12
1.2 Typische Anwendungen
. . . . . . . . . . . . . . . . 13
1.3 Grundlegender Ansatz . . . . . . . . . . . . . . . . . 14
1.4 Datentypen
. . . . . . . . . . . . . . . . . . . . . . 21
1.5 Datenquellen . . . . . . . . . . . . . . . . . . . . . . 22
1.6 Datenaufbereitung . . . . . . . . . . . . . . . . . . . 23
1.7 Historische Anmerkungen und Literatur . . . . . . . . . 24
4
I
Das klassische lineare Regressionsmodell
2 Das einfache lineare Regressionsmodell
27
27
2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Grundlegender Ansatz . . . . . . . . . . . . . . . . . 30
2.3 Standardannahmen
. . . . . . . . . . . . . . . . . . 31
2.4 Schlussfolgerungen
. . . . . . . . . . . . . . . . . . 32
2.5 Methode der kleinsten Quadrate . . . . . . . . . . . . 34
2.6 Herleitung der KQ-Schätzer
. . . . . . . . . . . . . . 37
2.7 Statistische Inferenz . . . . . . . . . . . . . . . . . . 45
2.7.1 Die Schätzer für α und β . . . . . . . . . . . . 45
5
2.7.2 Der Schätzer für σ 2 . . . . . . . . . . . . . . . 47
2.7.3 Die geschätzte Regressionsgleichung . . . . . . 50
2.7.4 Hypothesentests für α und β . . . . . . . . . . 52
2.7.5 Konfidenzintervalle für α und β . . . . . . . . . 54
3 Das multiple lineare Regressionsmodell
56
3.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Standardannahmen
. . . . . . . . . . . . . . . . . . 59
3.3 Kompakte Darstellung . . . . . . . . . . . . . . . . . 61
3.4 Elastizitäten . . . . . . . . . . . . . . . . . . . . . . 65
3.5 Herleitung des KQ-Schätzers . . . . . . . . . . . . . . 70
6
3.6 Der Determinationskoeffizient
. . . . . . . . . . . . . 77
3.7 Schätzung der Regressionskoeffizienten . . . . . . . . 84
3.8 Statistische Inferenz . . . . . . . . . . . . . . . . . . 87
3.8.1 Der Schätzer für β . . . . . . . . . . . . . . . 87
3.8.2 Der Schätzer für σ 2 . . . . . . . . . . . . . . . 88
3.8.3 Die geschätzte Regressionsgleichung . . . . . . 90
3.8.4 Hypothesentests für β1 , . . . , βm
3.8.5 Der klassische F -Test
. . . . . . . 92
. . . . . . . . . . . . . 93
3.8.6 Konfidenzintervalle für β1 , . . . , βm . . . . . . 93
3.9 Das Gauss-Markoff-Theorem . . . . . . . . . . . . . . 95
7
II Modelle mit stochastischen Regressoren
98
4 Das bedingte lineare Regressionsmodell
99
4.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . 99
4.2 Standardannahmen
. . . . . . . . . . . . . . . . . . 100
4.3 Statistische Inferenz . . . . . . . . . . . . . . . . . . 103
4.3.1 Der Schätzer für β . . . . . . . . . . . . . . . 103
4.3.2 Der Schätzer für σ 2 . . . . . . . . . . . . . . . 105
4.3.3 Hypothesentests für β1 , . . . , βm
4.3.4 Der F - und χ2 -Test
. . . . . . . 107
. . . . . . . . . . . . . . 109
4.3.5 Konfidenzintervalle für β1 , . . . , βm . . . . . . 109
8
5 Modellwahl
111
5.1 Die grundlegenden Ziele der linearen Regression . . . . 111
5.2 Der Fundamentalsatz der linearen Regression . . . . . 114
5.3 Erklärung
. . . . . . . . . . . . . . . . . . . . . . . 116
5.3.1 Die Bedeutung der Regressionskoeffizienten
. . 116
5.3.2 Kollinearität . . . . . . . . . . . . . . . . . . . 123
5.3.3 Der Omitted Variables Bias . . . . . . . . . . . 128
5.4 Vorhersage
. . . . . . . . . . . . . . . . . . . . . . 132
5.4.1 Schätzung der Parameter . . . . . . . . . . . . 132
5.4.2 Bedingte Punktvorhersage
9
. . . . . . . . . . . 135
5.4.3 Bedingte Intervallvorhersage
. . . . . . . . . . 140
5.4.4 Ex-Ante- vs. Ex-Post-Vorhersage . . . . . . . . 142
5.5 Das Auswahlproblem . . . . . . . . . . . . . . . . . . 145
5.5.1 Data Mining . . . . . . . . . . . . . . . . . . . 145
5.5.2 Komplexität . . . . . . . . . . . . . . . . . . . 152
5.6 Ansätze zur Behebung des Auswahlproblems . . . . . . 166
5.6.1 Der Umgang mit Overfitting . . . . . . . . . . . 166
5.6.2 Der Umgang mit Data Mining . . . . . . . . . . 174
10
1 Grundprobleme der Ökonometrie
• Was ist Ökonometrie?
• Beispiele typischer Anwendungen: Geldnachfrage, privater
Konsum, Arbeitslosigkeit, Zinsniveau
• Ökonomisches Modell vs. ökonometrisches Modell
• Spezifikation, Schätzung, Test und Prognose
• Datentypen, -quellen und -aufbereitung
• Empirische Wirtschaftsforschung, Stufen einer empirischen
Studie
• Simultane Gleichungen
11
1.1 Was ist Ökonometrie?
Ziel: Die Anwendung statistischer Methoden auf bestimmte
ökonomische Probleme, insbesondere
• die Analyse struktureller Beziehungen (Erklärung),
• die Prognose künftiger Entwicklungen (Vorhersage) und
• der Vergleich von Politiken.
Neben zahlreichen Anwendungen ökonometrischer Verfahren im
Kontext empirischer Studien beschäftigen sich viele Autoren mit der
Methodenentwicklung.
12
1.2 Typische Anwendungen
• Geldnachfrage = f (BIP, Geldmenge, Zinssätze, Erträge, . . . ).
• Privater Konsum = f (Einkommen, früherer Konsum, Vermögen,
Einkommensverteilung, . . . ).
• Dauer der Arbeitslosigkeit eines Individuums = f (Alter,
Geschlecht, Ausbildung, . . . ).
• Anzahl der Arbeitslosen = f (BIP, Arbeitslosigkeitssockel, Saison,
Terms of Trade, Arbeitsmarktregeln, . . . ).
• Individuelle Lohnrate = f (Alter, Geschlecht, Ausbildung,
Berufserfahrung, . . . ).
13
1.3 Grundlegender Ansatz
Unterstellt wird eine funktionale Beziehung zwischen erklärenden
Variablen x1 , . . . , xm und einer (oder mehrerer) erklärten Variablen
y = f (x1 , x2 , . . . , xm ) .
Die Variable y wird durch die Variablen x1 , x2 , . . . , xm „erklärt“.
Z.B. wird der gesamtwirtschaftliche private Konsum C mit dem
Gesamteinkommen Y aller privaten Haushalte durch eine lineare
Funktion verknüpft:
C = α + βY.
14
Ökonometrisches Modell
Modellansatz:
yt = f (xt1 , xt2 , . . . , xtm ) + ut .
Der „Störterm“ ut umfasst nicht weiter spezifizierte Abweichungen der
erklärten Variablen, insbesondere durch
• unbekannte Variablen, welche ebenso einen Einfluss auf yt
ausüben,
• zufällige Schwankungen von yt bei gegebenen Werten der
xt1 , xt2 , . . . , xtm ,
• Messfehler in y , etc.
15
• Spezifikation der Variablen und ihrer funktionalen Beziehung,
d.h.
– Auswahl von Variablen zur Erklärung bzw. Vorhersage von y ,
– Charakterisierung von f (z.B. als affin-lineare Funktion).
• Schätzung der unbekannten Parameter von f mittels
hergebrachter Verfahren der Ökonometrie (KQ-Methode,
ML-Methode, GMM, etc.).
• Testen vorgegebener Hypothesen, d.h. bestimmte Aussagen
werden empirisch überprüft.
• Prognose künftiger Werte von y .
16
Das Keynessche Grundmodell
Ct = α + βYt + ut
mit
Yt = Ct + It ,
wobei
• Ct privater Konsum
• Yt verfügbares Einkommen der Haushalte
• It gesamtwirtschaftliches Investment plus öffentliche Ausgaben,
• t Zeit (in Jahren) .
17
Einflussdiagramm
Y
t
•
6
I
•
C
•
Ct = α + βYt + ut ,
18
Yt = Ct + It .
Habit-Persistence Model (Brown, 1952)
Das Habit-Persistence Model ist eine leichte Abwandlung des
Keynesschen Grundmodells:
Ct = α + βYt + γCt−1 + ut
mit
Yt = Ct + It .
Der vergangene Konsum Ct−1 hat hierbei also einen Einfluss auf den
heutigen Konsum Ct .
19
Einflussdiagramm
Y
t−1
•
t
•
6
I
•
•
C
•
- •
Ct = α + βYt + γCt−1 + ut ,
20
Yt = Ct + It
1.4 Datentypen
• Querschnittsdaten (z.B. ein bestimmtes Merkmal mehrerer
Individuen, zu einem bestimmten Zeitpunkt erhoben).
• Längsschnittsdaten (z.B. ein bestimmtes Merkmal eines
einzigen Individuums, jedoch in verschiedenen
Zeitpunkten/Perioden erhoben).
• Paneldaten (z.B. ein bestimmtes Merkmal mehrerer Individuen,
jedoch zu verschiedenen Zeitpunkten erhoben).
21
1.5 Datenquellen
• Statistisches Bundesamt (DeStatis, www.destatis.de),
• Deutsche Bundesbank, Europäische Zentralbank (EZB),
• Sachverständigenrat zur Begutachtung der
gesamtwirtschaftlichen Entwicklung (die „fünf
Wirtschaftsweisen“),
• Wirtschaftsforschungsinstitute (RWI in Düsseldorf, IFO in
München, DIW in Berlin etc.),
• Sozioökonomisches Panel (SOEP) beim DIW Berlin,
• EUROSTAT, OECD, UN und angeschlossene Organisationen, etc.
22
1.6 Datenaufbereitung
- - Ökonomisches Problem
?
- - Grundgesamtheit,
Variablen,
Hypothesen (ökonomisches Modell)
?
- - Auswahl
von relevanten Daten
?
Dateninspektion,
Datenanalyse
?
- Statistisches
Modell
?
Schätzungen, Tests, Prognosen
23
1.7 Historische Anmerkungen und Literatur
Historie
Gründung der Econometric Society am 29. Dezember 1930 in
Chicago.
„The Econometric Society is an international society for the
advancement of economic theory in its relation to statistics
and mathematics... Its main object shall be to promote studies
that aim at a unification of the theoretical-quantitative
approach to economic problems.“
Zeitschrift der Econometric Society: Econometrica.
24
Literatur
Eine kleine Auswahl von Zeitschriften für Statistik und Ökonometrie:
• Journal of the American Statistical Association (JASA)
• Journal of Econometrics
• Journal of Applied Econometrics
• Review of Economic Studies
• American Economic Review
• International Economic Review
• Journal of the Royal Statistical Society Series B
• Review of Economics and Statistics
25
Lehrbücher
Empfehlenswert für eine etwaige Nachbereitung des Stoffs:
• Greene, W.H. (2008): Econometric Analysis, 6. Auflage, Prentice
Hall.
• Hayashi, F. (2000): Econometrics, Princeton.
• Murray, M. (2005): Econometrics: A Modern Introduction, Addison
Wesley.
• Stock, J.H. und Watson, M.W. (2006): Introduction to
Econometrics, Addison Wesley.
• Verbeek, M. (2008): A Guide to Modern Econometrics, 3. Auflage,
Wiley.
26
Teil I
Das klassische lineare
Regressionsmodell
Carl F. Gauß
(1777–1855)
Karl Pearson
(1857–1936)
27
Udny Yule
(1871–1951)
2 Das einfache lineare Regressionsmodell
2.1 Motivation
• Der Preis einer Immobilie hängt von verschiedenen Faktoren ab,
wie z.B. der Wohnfläche, der Wohnlage, der Anzahl der
Schlafzimmer, Bäder, Abstellplätze und Garagen, etc.
• Wie viel würde ein bestimmtes Haus kosten, wenn man z.B. die
Wohnfläche um 10 m2 vergrößern würde?
• Die gleiche Frage ergibt sich auch in Bezug auf andere Güter, wie
z.B. Computer oder Autos.
28
Immobilienpreise
Logarithmierter Preis (Kanadischer Dollar)
12.5
12
11.5
11
10.5
10
7
7.5
8.5
8
9
9.5
Logarithmierte Wohnfläche (Quadratfuß)
29
10
2.2 Grundlegender Ansatz
Das einfache lineare Modell unterstellt einen linearen Zusammenhang
zwischen einer erklärten Variablen yi und einer erklärenden
Variablen xi , d.h.
yi = α + βxi + ui
für i
= 1, . . . , n . Hierbei sind α und β zwei unbekannte Parameter
und ui eine unbeobachtbare zufällige Störgröße, welche als
Residuum bezeichnet wird.
Das einfache lineare Modell unterstellt, dass die erklärende Variable,
auch Regressor genannt, deterministisch (d.h. fix) ist.
30
2.3 Standardannahmen
Die Standardannahmen des einfachen linearen Regressionsmodells
lauten:
A1 Der Erwartungswert aller Residuen beträgt Null, d.h. E(ui )
= 0,
A2 alle Residuen besitzen die gleiche Varianz, d.h.
Var(ui ) = σ 2 > 0 ,
A3 die Residuen sind unkorreliert, d.h. Cov(ui , uj )
und i, j
= 1, . . . , n und
= 0 für i 6= j
A4 die Residuen sind gemeinsam normalverteilt, d.h.
u1 , . . . , un ∼ N (0, σ 2 ) und stochastisch unabhängig.
31
2.4 Schlussfolgerungen
Aus den Standardannahmen folgt unmittelbar
1.
E(yi ) = E(α + βxi + ui ) = α + βxi + E(ui ) = α + βxi ,
2.
Var(yi ) = Var(α + βxi + ui ) = Var(ui ) = σ 2 , sowie
3.
Cov(yi , yj ) = Cov(α + βxi + ui , α + βxi + uj ) =
Cov(ui , uj ) = 0 für alle i 6= j .
Außerdem gilt
dE(yi )
=β,
dxi
d.h. der Erwartungswert von yi steigt um β Einheiten, wenn xi um
eine Einheit steigt.
32
Anmerkungen
Das einfache lineare Modell besitzt drei unbekannte Parameter. Es
handelt sich dabei um
1. den Achsenabschnitt α ,
2. den Regressionskoeffizienten β und
3. die Residualvarianz σ 2
> 0.
Es gilt nun, die unbekannten Parameter aus einer vorliegenden
Stichprobe (x1 , y1 ), . . . , (xn , yn ) möglichst genau zu schätzen.
Die am weitesten verbreitete Methode ist die Methode der kleinsten
Quadrate (KQ-Methode).
33
2.5 Methode der kleinsten Quadrate
Man betrachte die Summe der Quadratfehler, d.h.
n
X
2
Q(a, b) =
yi − (a + bxi ) .
| {z }
i=1
Regressions−
gerade
Die sogenannten KQ-Schätzer α̂ und β̂ ergeben sich dadurch, dass
man a und b gerade so wählt, dass Q(a, b) minimiert wird.
Die KQ-Schätzer für α und β sind definiert als
(α̂, β̂) = arg min Q(a, b) .
a,b
34
Quadratfehler bei einer schlecht angepassten Regressionsgeraden.
35
Quadratfehler bei einer besser angepassten Regressionsgeraden.
36
2.6 Herleitung der KQ-Schätzer
Die partielle Ableitung von Q nach a beträgt
∂Q(a, b)
= −2
∂a
n
X
i=1
(yi −a−bxi ) = −2
n
X
i=1
yi −na−b
und die partielle Ableitung von Q nach b ist gegeben durch
n
X
∂Q(a, b)
= −2
xi (yi − a − bxi ) .
∂b
i=1
Um die KQ-Schätzer zu erhalten, muss man beide partiellen
Ableitungen gleich Null setzen.
37
n
X
i=1
xi
!
Aus der ersten Gleichung, d.h.
∂Q(α̂, β̂)
= −2
∂a
n
X
i=1
yi − nα̂ − β̂
n
X
i=1
xi
!
= 0,
folgt unmittelbar
n
n
X
X
1
1
yi − β̂ ·
xi = ȳ − β̂ x̄
α̂ =
n i=1
n i=1
für den KQ-Schätzer bezüglich des Achsenabschnitts α .
Setzt man diesen Ausdruck in die zweite Gleichung
∂Q(α̂, β̂)
= −2
∂b
n
X
i=1
xi (yi − α̂ − β̂xi ) = 0
38
ein, so erhält man
−2
n
X
i=1
xi (yi − ȳ) − β̂(xi − x̄) = 0 .
Man beachte, dass
n
X
i=1
so dass
(xi − x̄) = 0
und
n
X
(yi − ȳ) = 0 ,
i=1
n
X
−2
x̄ (yi − ȳ) − β̂(xi − x̄) = 0 .
i=1
39
Für die zweite Schätzgleichung ergibt sich damit
−2
n
X
i=1
(xi − x̄) (yi − ȳ) − β̂(xi − x̄) = 0 .
Der KQ-Schätzer bezüglich des Regressionskoeffizienten β
entspricht also
mit
σ̂xy
Pn
(xi − x̄)(yi − ȳ)
σ̂xy
i=1
P
β̂ =
= 2 ,
n
2
σ̂x
i=1 (xi − x̄)
n
n
X
X
1
1
2
=
(xi − x̄)(yi − ȳ) und σ̂x =
(xi − x̄)2 .
n i=1
n i=1
40
Wegen
n
n
1X
1X 2
2
2
σ̂x =
(xi − x̄) =
xi − x̄2
n i=1
n i=1
und
n
σ̂xy
n
1X
1X
(xi − x̄)(yi − ȳ) =
xi yi − x̄ȳ
=
n i=1
n i=1
lässt sich der KQ-Schätzer für β alternativ schreiben als
β̂ =
Pn
i=1 xi yi − x̄ȳ
Pn 2
.
2
i=1 xi − x̄
1
n
1
n
41
Regression der Immobilienpreise auf die Wohnfläche
Logarithmierter Preis (Kanadischer Dollar)
12.5
12
11.5
11
10.5
10
7
7.5
8.5
8
9
9.5
Logarithmierte Wohnfläche (Quadratfuß)
42
10
Weiterentwicklungen
Das einfache lineare Modell ist lediglich ein erster Schritt in Richtung
einer praktikablen und realitätsnahen Modellierung ökonomischer
Phänomene.
Die Ökonometrie hat eine Vielzahl von Weiterentwicklungen des
einfachen linearen Modells hervorgebracht:
• Beim multiplen linearen Regressionsmodell wird yi durch
mehrere Regressoren xi1 , xi2 , . . . , xim erklärt.
• Die Annahme fixer Regressoren wird aufgehoben. Modelle mit
stochastischen Regressoren spielen heutzutage eine
entscheidende Rolle.
43
• Außerdem werden mehrere Regressionsgleichungen mit Hilfe
sogenannter Simultangleichungsmodelle gleichzeitig
berücksichtigt.
• Die Standardannahmen der linearen Regression werden durch
sogenannte Orthogonalitätsbedingungen ersetzt.
Hierbei spielt die Aufweichung der strikten Annahme fixer
Regressoren eine entscheidende Rolle und markiert den Übergang
von der klassischen zur modernen linearen Regression.
Eine einfache Form des linearen Regressionsmodells mit
stochastischen Regressoren wird später im Rahmen dieser Vorlesung
behandelt.
44
2.7 Statistische Inferenz
2.7.1
Die Schätzer für α und β
• Merke: Die Schätzer für α und β lauten
Pn
(xi − x̄)(yi − ȳ)
i=1
Pn
α̂ = ȳ − β̂ x̄
und
β̂ =
.
2
i=1 (xi − x̄)
• Bereits unter der Annahme A1 gilt E(α̂) = α und E(β̂) = β .
D.h. die beiden Schätzer sind erwartungstreu (oder unverzerrt).
• Im Folgenden symbolisieren α̂n und β̂n die KQ-Schätzer bei
einem Stichprobenumfang von n .
• Beachte: Für jedes n sind α̂n und β̂n zufällig.
45
• Unter einer sehr schwachen zusätzlichen Regularitätsbedingung
gilt nun
p
α̂n −→ α
für n
und
p
β̂n −→ β
→ ∞ . D.h. die beiden Schätzer sind auch konsistent.
• Unter A1–A3 gibt es darüber hinaus keine anderen linearen und
unverzerrten Schätzer mit einer geringeren Varianz.
• Das bedeutet α̂ und β̂ sind die besten linearen unverzerrten
Schätzer (Best Linear Unbiased Estimators, BLUE) für α und β .
• Unter der zusätzlichen Annahme A4 sind die KQ-Schätzer α̂ und
β̂ zugleich die Maximum-Likelihood-(ML-)Schätzer für α und β .
46
• Ferner gilt unter A1–A4
und
Pn 2 21
σ n i=1 xi
α̂ ∼ N α, Pn
2
i=1 (xi − x)
β̂ ∼ N β, Pn
2
σ
2
i=1 (xi − x)
2.7.2
.
Der Schätzer für σ 2
• Aus dem klassischen linearen Regressionsmodell folgt
unmittelbar
ui = yi − (α + βxi ) .
47
• Das „wahre Residuum“ ui kann also mittels des empirischen
Residuums
ûi = yi − (α̂ + β̂xi )
approximiert werden.
• Unter A1–A4 kann man zeigen, dass
n
X
i=1
û2i ∼ σ 2 χ2n−2 .
• Die Residualvarianz σ 2 wird typischerweise durch
geschätzt.
n
X
1
σ̂ 2 =
û2i
n − 2 i=1
48
• Wegen E(χ2n−2 ) = n − 2 gilt also
E(σ̂ 2 ) = σ 2 ,
d.h. auch σ̂ 2 ist ein unverzerrter Schätzer für σ 2 .
• Außerdem kann man unter den Standardannahmen zeigen, dass
α̂ und β̂ stochastisch unabhängig von σ̂ 2 sind.
• Damit besitzt z.B. der t-Wert
r
Xn
β̂ − β
t =
·
(xi − x)2
i=1
σ̂
Pn
2
N (0, σ /( i=1 (xi − x)2 ))
N (0, 1)
p Pn
= p
=p 2
2
2
2
χn−2 /(n − 2)
σ χn−2 /(n − 2)/
i=1 (xi − x)
eine Studentsche t-Verteilung mit n − 2 Freiheitsgraden.
49
2.7.3
Die geschätzte Regressionsgleichung
• Nachdem die Parameter des linearen Modells geschätzt wurden,
stellt man die geschätzte Regressionsgleichung wie folgt dar:
y = â + β̂ x + u
(σ̂α̂ )
(σ̂β̂ )
(σ̂)
mit
σ̂α̂ = σ̂
s
Pn 2
1
i=1 xi
n
Pn
2
i=1 (xi − x)
σ̂
und σ̂β̂ = pPn
.
2
i=1 (xi − x)
• Hierbei sind σ̂α̂ und σ̂β̂ Schätzer für die Standardabweichungen
von α̂ und β̂ . Sie werden als Standardfehler bezeichnet.
50
• Die Standardfehler repräsentieren ad-hoc-Indikatoren für das
Schätzrisiko der entsprechenden Parameter. Man beachte, dass
α̂ − α0
t=
σ̂α̂
• Ferner wird
v
u
u
σ̂ = t
bzw.
1
n−2
β̂ − β0
t=
.
σ̂β̂
n
X
û2i
i=1
als Standardfehler der Regression bezeichnet.
51
2.7.4
Hypothesentests für α und β
Nullhypothese
H0 : α = α0
H0 : α ≤ α0
H0 : α ≥ α0
Gegenhypothese
H1 : α 6= α0
H1 : α > α0
H1 : α < α0
Teststatistik
H0 ablehnen
t=
|t| > tn−2;1− α2
α̂−α0
σ̂
q Pn
(xi −x)
i=1
P
n
1
2
i=1 xi
n
t > tn−2;1−α
t < −tn−2;1−α
Ein- und zweiseitige Hypothesentests für α .
52
2
Nullhypothese
H0 : β = β0
H0 : β ≤ β0
H0 : β ≥ β0
Gegenhypothese
H1 : β 6= β0
H1 : β > β0
H1 : β < β0
Teststatistik
H0 ablehnen
t=
|t| > tn−2;1− α2
β̂−β0
σ̂
p Pn
2
(x
−
x)
i
i=1
t > tn−2;1−α
t < −tn−2;1−α
Ein- und zweiseitige Hypothesentests für β .
53
2.7.5
Konfidenzintervalle für α und β
• Aus den zweiseitigen Hypothesentests für α und β folgen die
entsprechenden Konfidenzintervalle auf dem Konfidenzniveau α .
• Z.B. erhält man aus
sP
n
α̂ − α
2
(x
−
x)
i
0
i=1
Pn 2 ≤ tn−2;1− α2
|t| = 1
σ̂
i=1 xi
n
gerade ein Konfidenzintervall für α mit den Intervallgrenzen
α̂u,o = α̂ ± σ̂
s
Pn 2
1
i=1 xi
n
Pn
2
(x
−
x)
i
i=1
54
· tn−2;1− α2 .
• Auf die gleiche Weise erhält man die Intervallgrenzen
β̂u,o
σ̂
= β̂ ± pPn
· tn−2;1− α2 .
2
(x
−
x)
i
i=1
des Konfidenzintervalls für β .
• Die Konfidenzintervalle für α und β schreibt man dann wie folgt:
h
i
[α̂u , α̂o ]
bzw.
β̂u , β̂o .
55
3 Das multiple lineare Regressionsmodell
3.1 Motivation
• Das Keynessche Grundmodell
Ct = α + βYt + ut ,
ebenso wie das Habit-Persistence Model
Ct = α + βYt + γCt−1 + ut ,
besitzen die Form
yi = β1 + β2 xi2 + . . . + βm xim + ui .
56
• Dies ist das multiple lineare Modell (LIM).
• Im Fall m = 2 erhält man wieder das einfache lineare Modell
yi = β1 + β2 xi2 + ui .
• Hierbei sind
–
i bzw. t der Index der Beobachtungen (z.B. ein Individuum
bzw. Zeitpunkt/Periode),
–
yi die erklärte Variable, auch Regressand oder endogene
Variable genannt,
–
xij die j -te erklärende Variable, Regressor oder exogene
Variable,
–
ui das Residuum, der Fehler- oder Störterm.
57
• Hierbei stellen β1 , . . . , βm und σ 2 die unbekannten Parameter
des Modells dar.
• Der Parameter β1 wird als Achsenabschnitt bezeichnet.
• Die Parameter β2 , . . . , βm sind die Regressionskoeffizienten.
• Die Variablen yi , xi2 , . . . , xim sind beobachtbar, wohingegen
das Residuum ui unbeobachtbar (d.h. latent) ist.
• Beim klassischen linearen Modell werden die exogenen
Variablen xi2 , . . . , xim als fix (d.h. deterministisch) angesehen.
• Im Gegensatz dazu ist das Residuum ui eine Zufallsvariable.
• Damit ist auch die endogene Variable yi zufällig.
58
3.2 Standardannahmen
• Die Standardannahmen des multiplen linearen
Regressionsmodells sind wiederum gegeben durch A1–A4.
• Aus diesen folgt nun unmittelbar
1.
E(yi ) = β1 + β2 xi2 + . . . + βm xim (Linearität),
2.
Var(yi ) = σ 2 (Homoskedastizität), sowie
3.
Cov(yi , yj ) = 0 (fehlende Autokorrelation) für alle i 6= j .
• Aus der Linearität folgt wiederum
∂E(yi )
= βj
∂xij
für j
= 2, . . . , m .
59
Probleme mit den Standardannahmen
• Zunächst stellt die Annahme fixer Regressoren eine grobe
Vereinfachung dar.
• Darüber hinaus ist die Linearität des Erwartungswerts ebenso
eine grobe Vereinfachung.
• Die Homoskedastizität ist häufig eine zu starke Annahme, etwa
wenn die Varianz von yi von xi abhängt.
• Reale Beobachtungen y1 , . . . , yn sind häufig miteinander
korreliert (d.h. autokorreliert).
• Das gilt insbesondere, wenn es sich bei y1 , . . . , yn um eine
Zeitreihe handelt.
60
3.3 Kompakte Darstellung
• Das LIM kann kompakt dargestellt werden in der
Matrixschreibweise
y = Xβ + u .
• Hierbei ist

1 x12 . . .
 .
..
..
X =
.

(n×m)
1 xn2 . . .
eine fixe Regressormatrix.
61
x1m
..
.
xnm




• Außerdem sind

y1
 .
..
y =

(n×1)
yn
Spaltenvektoren.


,


u1

 . 
..  ,
u =


(n×1)
un
β1

 . 
.. 
β =


(m×1)
βm
• Der Vektor der Residuen hat den Erwartungswert


E(u1 )
 . 
.. 
E(u) = 


E(un )
62

und die Kovarianzmatrix

Var(u1 )
Cov(u1 , u2 ) · · ·

 Cov(u , u )
Var(u2 )
···
2
1

Var(u) = 
..
..
..

.
.
.

Cov(un , u1 ) Cov(un , u2 ) · · ·
Cov(u1 , un )

Cov(u2 , un ) 

.
..

.

Var(un )
• Die Standardannahmen lauten dann in Matrixschreibweise:
A1
A2–A3
E(u) = 0 (n × 1), wobei 0 ein Nullvektor ist,
Var(u) = σ 2 In (n × n), wobei σ 2 > 0 und In eine
Einheitsmatrix (oder Identitätsmatrix) darstellt,
A4
u ∼ Nn (0, σ 2 In ), d.h. u1 , . . . , un sind gemeinsam
normalverteilt und stochastisch unabhängig.
63

• Aus den Standardannahmen folgen wiederum die
1. Linearität bezüglich des Erwartungswerts von y , d.h.
E(y) = Xβ , sowie die
2. Homoskedastizität und fehlende Autokorrelation bezüglich
y , d.h. Var(y) = σ 2 In .
64
3.4 Elastizitäten
• Man betrachte das ökonomische Modell
y = α + βx .
• Es handelt sich hierbei um ein einfaches lineares Modell bei dem
offenbar
dy
dx
=β.
• D.h. y steigt um β Einheiten, wenn x um eine Einheit steigt.
• Man betrachte jetzt das log-lineare Modell
log y = α + βx .
65
• Hierbei stellt log den natürlichen Logarithmus dar und damit gilt
−1
d log y
dy/y
dy
d log y
=
=⇒ β =
.
·
dx
dy
dx
dx
|
{z
} | {z }
=y
=β
• Das bedeutet β quantifiziert nun den prozentualen Anstieg von
y wenn x um eine Einheit steigt. Der Parameter β ist also eine
Teilelastizität.
• Bezüglich des log-log-linearen Modells
log y = α + β log x
66
gilt analog dazu
dy
dx
=
|
d log y
dy
{z
=y
−1
·
d log y
·
d log x
d log x | d{z
x }
|
{z
}
}
=⇒
β=
dy/y
dx/x
.
= 1/x
=β
• D.h. β quantifiziert also den prozentualen Anstieg von y wenn x
um ein Prozent steigt und ist damit eine Elastizität.
• Man erhält dieselben Interpretationen, wenn y neben x von
weiteren Regressoren abhängt.
• In diesem Fall ist β die partielle Ableitung bzw. (Teil-)Elastizität.
67
Beispiel
• Der relative Lohn der Personen i = 1, . . . , n soll mit Hilfe eines
log-linearen Modells
log Wi = β1 + β2 Ei + β3 Ti + β4 Bi + ui
erklärt werden.
• Die Bedeutung der einzelnen Variablen:
–
Wi : relativer Lohn von i =
–
Ei : Schule und Ausbildung [in Jahren],
–
Ti : Berufserfahrung [in Jahren],
–
Bi : Erfahrung im aktuellen Beruf [in Jahren].
68
individueller Stundenlohn
,
durchschnittlicher Stundenlohn
• Das folgende Modell ist äquivalent dazu:
Wi = eβ1 · eβ2 Ei · eβ3 Ti · eβ4 Bi · eui
mit der Eulerschen Zahl e
= 2.71828 .
• Z.B. erhält man für β2 = 0.03 die Aussage, dass eine um ein
Jahr längere Ausbildung ceteris paribus mit einer Erhöhung des
relativen Lohns von c.a. 3% einhergeht.
• Achtung: Hierbei wird keineswegs ein kausaler, sondern nur ein
statistischer Zusammenhang zum Ausdruck gebracht!
• D.h. man kann nicht etwa sagen, dass eine längere Ausbildung
die Ursache für einen höheren Lohn ist.
69
3.5 Herleitung des KQ-Schätzers
• Zwecks Schätzung von β minimieren wir genauso wie im
einfachen Modell die Summe der quadrierten Residuen, d.h.
β̂ = arg minm (y − Xb)′ (y − Xb) .
b∈R
• Der daraus resultierende Schätzer wird auch als gewöhnlicher
KQ-Schätzer (Ordinary Least-Squares Estimator, kurz: OLS)
bezeichnet.
• Man definiert nun SSR(b) = (y − Xb)′ (y − Xb). Eine
notwendige Bedingung für das Minimum ist damit
∂ SSR(β̂)
= 0.
∂b
70
• Man beachte zunächst, dass
SSR(b)
= y ′ y − y ′ Xb − (Xb)′ y + (Xb)′ Xb
= y ′ y − 2y ′ Xb + b′ X ′ Xb .
• Die partielle Ableitung von SSR(b) nach b ∈ Rm lautet
∂ SSR(b)
= −2X ′ y + 2X ′ Xb .
∂b
• D.h. die notwendige Bedingung ist also gerade
∂ SSR(β̂)
= −2X ′ y + 2X ′ X β̂ = 0 .
∂b
71
• Daraus resultiert unmittelbar der KQ-Schätzer für β , nämlich
β̂ = (X ′ X)
−1
X ′y .
• Voraussetzung: X ′ X ist nicht singulär!
• Falls die Anzahl m der Parameter den Stichprobenumfang n
übersteigt, ist die Matrix X ′ X singulär.
• Für m ≤ n kann X ′ X sogar ebenfalls singulär sein
(Multikollinearität). In aller Regel ist X ′ X dann jedoch regulär.
• Man kann zeigen, dass auch die hinreichende Bedingung für
das Minimum erfüllt ist, sofern X ′ X tatsächlich regulär ist.
72
• Im Fall m = 2 erhält man wieder das einfache lineare Modell.
• Die Regressormatrix ist dann gegeben durch


1 x1


 .. .. 
X = . .  ,


1 xn
wobei X ′ X bereits dann regulär ist, wenn x1 , . . . , xn nicht
allesamt gleich sind.
• D.h. es muss lediglich gelten, dass
n
X
1
(xi − x̄)2 > 0 .
σ̂x2 =
n i=1
73
• Es stellt sich nun heraus, dass

P

n
xi

X X = P
P 2 .
xi
xi
′
• Die Inverse von X ′ X entspricht
(X ′ X)
−1
 P

P
2
x
− xi
1
i
.
= P
· P
P
2
n
x2i −
xi
− xi
n
• Außerdem erhält man
 P 
yi
′
.
X y = P
xi y i
74
• Damit ist der KQ-Schätzer gegeben durch
 P P 
P
P
x2i
yi −
xi
xi y i
1
.
·
β̂ = P
P
P
P
P
2
n x2i −
xi
n xi y i −
xi
yi
• Der geschätzte Regressionskoeffizient ist also
P
P P xi
yi
n xi y i −
β̂2 =
P 2
P 2
n xi − ( xi )
P
P
P
P
1
1
1
1
xi yi − ( n xi )( n yi )
xi yi − x̄ȳ
σ̂xy
n
n
=
= 1P 2
= 2 .
P 2
P 2
2
1
1
σ̂x
xi − x̄
xi − n xi
n
n
75
• Bezüglich des KQ-Schätzers für den Achsenabschnitt erhält
man
β̂1
=
=
=
=
P P P
yi −
xi
xi yi
P 2
P 2
n xi −
xi
P
P 2 P P P P P xi
yi − x̄
xi
yi − x̄ n xi yi −
xi
yi
P 2
P 2
n xi −
xi
P 2 P P P xi
yi − x̄
xi
yi
− β̂ x̄
P 2
P 2
n xi −
xi
P 2
P 2 1 P n xi −
xi
yi
n
− β̂ x̄ = ȳ − β̂ x̄ .
P 2
P 2
n xi −
xi
P
x2i
• Ergo: β̂1 und β̂2 entsprechen tatsächlich den bereits bekannten
KQ-Schätzern α̂ und β̂ des einfachen linearen Modells.
76
3.6 Der Determinationskoeffizient
• Sei β̂ der KQ-Schätzer für β . Dann wird
ŷ = X β̂
als geschätzte Regression bezeichnet.
• Ferner ist
û = y − ŷ
das sogenannte empirische Residuum.
• Die Summe der quadrierten Residuen û′ û misst die
Anpassungsgüte der Regressionsebene an die Daten.
77
• D.h. bei einer vorgegebenen Stichprobe der Länge n produziert
das LIM mit der kleinsten Quadratsumme die beste Anpassung.
• Achtung: Ein Vergleich der Quadratsummen verschiedener
Stichproben macht jedoch keinen Sinn!
• Man kann zeigen, dass
n
X
ûi = 0 .
i=1
• Damit gilt insbesondere auch
n
1X
û =
ûi = 0 .
n i=1
78
• Für die Summe der quadrierten Residuen gilt dann
û′ û =
n
X
i=1
• Deshalb ist
n
X
û2i =
(ûi − û)2 .
i=1
n
n
X
X
1
1
2
2
¯
σ̂û =
(ûi − û) =
û2i
n i=1
n i=1
die empirische Varianz von û .
• Die empirische Varianz von ŷ ist hingegen
n
n
X
X
1
1
2
2
σ̂ŷ =
(ŷi − ŷ) mit ŷ =
ŷi .
n i=1
n i=1
79
• Man beachte, dass
n
n
n
1X
1X
1X
ȳ =
yi =
(ŷi + ûi ) =
ŷi = ŷ .
n i=1
n i=1
n i=1
• Darüber hinaus gilt der Varianzzerlegungssatz
n
1X
2
(yi − y)2 = σ̂ŷ2 + σ̂û2 .
σ̂y =
n i=1
• D.h. die Streuung σ̂y2 der erklärten Variablen y lässt sich in zwei
Bestandteile zerlegen:
1. Die Streuung σ̂ŷ2 der geschätzten Regression und
2. die Streuung σ̂û2 der empirischen Residuen.
80
• Je größer hierbei der Anteil von σ̂ŷ2 an der Gesamtstreuung σ̂y2 ist,
desto besser ist die Anpassung der Regression an die Daten.
• Aus diesem Grund wird σ̂ŷ2 /σ̂y2 als der durch die geschätzte
Regression erklärte Anteil von σ̂y2 bezeichnet.
• Dementsprechend ist σ̂û2 /σ̂y2 der nicht erklärte Anteil von σ̂y2 .
• Aus dem Varianzzerlegungssatz folgt nun 0 ≤ σ̂ŷ2 /σ̂y2 ≤ 1.
• Die Zahl
2
2
σ̂
σ̂
ŷ
R2 = 2 = 1 − û2
σ̂y
σ̂y
wird als Determinationskoeffizient (oder Bestimmtheitsmaß)
bezeichnet.
81
• Im Fall R2 = 1 gilt σ̂û2 = 0 und damit ûi = 0 für i = 1, . . . , n .
D.h. die Daten werden vollständig durch die geschätzte
Regression erklärt.
• Im Falle R2 = 0 gilt σ̂ŷ2 = 0 und damit ŷi = ȳ für i = 1, . . . , n .
D.h. die geschätzte Regression hat keinerlei Erklärungsgehalt.
• Man kann außerdem zeigen, dass
2
R2 = ry,ŷ
,
wobei
ry,ŷ =
1
n
Pn
i=1 (yi
− ȳ)(ŷi − ŷ)
q
σ̂y2 σ̂ŷ2
σ̂y,ŷ
=
σ̂y σ̂ŷ
der empirische Korrelationskoeffizient zwischen y und ŷ ist.
82
Bemerkungen zum Gebrauch von R2
• Die Interpretation von R2 als Bestimmtheitsmaß gilt nicht für ein
homogenes LIM y = β2 x2 + . . . + βm xm (d.h. β1 = 0).
• Grund: Bei einem homogenen LIM ist der Varianzzerlegungssatz
verletzt. Das R2 kann in diesem Fall sogar negativ werden.
• R2 misst lediglich den Grad des linearen Zusammenhangs
zwischen x und y . Andere funktionale Beziehungen werden
dadurch nicht erfasst.
• Es lässt sich kein allgemeines Gütekriterium für R2 angeben.
• Unter A4 können exakte Hypothesentests mit Hilfe von R2
durchgeführt werden.
83
3.7 Schätzung der Regressionskoeffizienten
• Sei
b xx
Σ
wobei

σ̂x2 ,x3
. . . σ̂x2 ,xm


2
 σ̂

σ̂
σ̂
x
,x
x
,x
 3 2
3 m
x3
= .
,
.
.
..
.. 
 ..


σ̂xm ,x2 σ̂xm ,x3 . . . σ̂x2m
σ̂xi ,xj
für i, j
σ̂x22

n
X
1
=
(xti − x̄i )(xtj − x̄j )
n t=i
= 2, . . . , m .
b xx ist also die empirische Kovarianzmatrix der Regressoren.
• Σ
84
• Ferner sei
b xy
Σ
mit
σ̂xj ,y
für j
= 2, . . . , m .

σ̂x2 ,y



 σ̂ 
 x3 ,y 
= . 
 .. 


σ̂xm ,y
n
X
1
=
(xtj − x̄j )(yt − ȳ)
n t=1
b xy der Vektor der empirischen Kovarianzen
• Damit ist Σ
zwischen den Regressoren und der erklärten Variablen.
85
• Der auf die Regressionskoeffizienten β2 , . . . , βm bezogene
Teil von β wird nun mit βs ∈ Rm−1 bezeichnet.
• Dementsprechend ist β̂s der dazugehörige Teil von β̂ .
• Man kann zeigen, dass
b −1 Σ
b
β̂s = Σ
xx xy .
• Beachte: Im Spezialfall des einfachen linearen Modells
resultiert daraus gerade die altbekannte Formel für den
KQ-Schätzer
σ̂xy
β̂2 = 2
σ̂x
des Regressionskoeffizienten.
86
3.8 Statistische Inferenz
3.8.1
Der Schätzer für β
• Unter A1 ist β̂ unverzerrt, d.h. E(β̂) = β .
• Sei β̂n der KQ-Schätzer beim Stichprobenumfang n. Dann gilt
unter einer sehr schwachen zusätzlichen Regularitätsbedingung
p
β̂n −→ β ,
n −→ ∞ .
D.h. β̂ ist ein konsistenter Schätzer für β .
• Darüber hinaus ist β̂ unter A4 der ML-Schätzer für β .
87
• Unter A1–A4 gilt
β̂ ∼ Nm (β, σ 2 (X ′ X)−1 ) .
• Bezüglich des Schätzers der Regressionskoeffizienten gilt
insbesondere
3.8.2
2
σ b −1
β̂s ∼ Nm−1 βs ,
Σxx .
n
Der Schätzer für σ 2
• Unter A1–A4 lässt sich zeigen, dass
n
X
i=1
û2i ∼ σ 2 χ2n−m .
88
• Der Schätzer für die Residualvarianz ist nun
n
X
1
û2i .
σ̂ 2 =
n − m i=1
• Daraus folgt E(σ̂ 2 ) = σ 2 , d.h. σ̂ 2 ist ein unverzerrter Schätzer
für die Residualvarianz σ 2 .
• Außerdem sind β̂ und σ̂ 2 stochastisch unabhängig.
• Daraus folgt z.B. für den F -Wert
b xx (β̂s − βs )
n (β̂s − βs )′ Σ
F =
∼ Fm−1,n−m ,
2
m−1
σ̂
wobei Fm−1,n−m die Fishersche F -Verteilung mit m − 1
Zählerfreiheitsgraden und n − m Nennerfreiheitsgraden ist.
89
3.8.3
Die geschätzte Regressionsgleichung
• Beachte: Die Matrix σ̂ 2 (X ′ X)−1 ist ein unverzerrter Schätzer für
die Kovarianzmatrix von β̂ .
• Die Standardfehler von β̂1 , . . . , β̂m entsprechen damit den
Quadratwurzeln der Hauptdiagonalelemente von σ̂ 2 (X ′ X)−1 .
• Diese werden im Folgenden durch σ̂β̂1 , . . . , σ̂β̂m symbolisiert
und auf diese Weise erhält man die geschätzte
Regressionsgleichung
y = β̂1 + β̂2 x2 + . . . + β̂m xm + u .
(σ̂β̂ )
1
(σ̂β̂ )
(σ̂β̂ )
(σ̂)
m
2
• Hierbei ist σ̂ wiederum der Standardfehler der Regression.
90
• Beachte: Die Standardfehler von β̂2 , . . . , β̂m sind darüber
hinaus die Quadratwurzeln der Hauptdiagonalelemente von
σ̂ 2 b −1
Σxx .
n
• Es ist also egal, ob man σ̂β̂2 , . . . , σ̂β̂m anhand von σ̂ 2 (X ′ X)−1
b −1 ermittelt.
oder σ̂ 2 /n Σ
xx
b xx sollte
• Die Berechnung der empirischen Kovarianzmatrix Σ
allerdings aus bestimmten Gründen sowieso vorgenommen
werden (dazu später mehr).
• Aus diesem Grund bietet sich das zweite Berechnungsverfahren
an, sofern man lediglich die Regressionskoeffizienten analysieren
möchte.
91
3.8.4
Hypothesentests für β1 , . . . , βm
Nullhypothese
H0 : βj = βj0
H0 : βj ≤ βj0
H0 : βj ≥ βj0
Gegenhypothese
H1 : βj 6= βj0
H1 : βj > βj0
H1 : βj < βj0
Teststatistik
t=
βˆj −βj0
r
σ̂ 2
, (σ̂β̂2 , . . . , σ̂β̂2 ) = diag σ̂ 2 (X ′ X)−1
1
m
β̂j
H0 ablehnen
|t| > tn−m;1− α2
t > tn−m;1−α
Ein- und zweiseitige Hypothesentests für βj .
92
t < −tn−m;1−α
3.8.5
Der klassische F -Test
• Gegeben sei die Nullhypothese H0 : β2 , . . . , βm = 0 .
• D.h. man nimmt an, dass die Regressoren x2 , . . . , xm überhaupt
keinen Einfluss auf die erklärte Variable y ausüben.
• Dementsprechend kann H0 anhand von R2 getestet werden.
• Die dazugehörige Teststatistik lautet
R2
n−m
F =
·
∼ Fm−1,n−m .
2
m−1 1−R
• H0 wird nun im Falle F > Fm−1,n−m;1−α abgelehnt.
• Man spricht hierbei vom klassischen F -Test.
93
3.8.6
Konfidenzintervalle für β1 , . . . , βm
• Die Grenzen eines zweiseitigen (und symmetrischen)
Konfidenzintervalls für βj auf dem Niveau 1 − α erhält man
gerade durch
β̂j,u,o = β̂j ± σ̂β̂j tn−m;1− α2 .
• Die dazugehörige Herleitung erfolgt auf die gleiche Weise wie für
die Parameter α und β des einfachen linearen Modells.
• Für das Konfidenzintervall bezüglich βj schreibt man dann
i
h
i h
β̂j,u , β̂j,o = β̂j − σ̂β̂j tn−m;1− α2 , β̂j + σ̂β̂j tn−m;1− α2 .
94
3.9 Das Gauss-Markoff-Theorem
• Ein beliebiger Schätzer β̃ für β heißt bekanntlich unverzerrt,
wenn E(β̃) = β (für alle β ∈ Rm ).
• Der Schätzer β̃ heißt linear, falls es einen Vektor a ∈ Rm und
eine Matrix B ∈ Rm×m gibt, so dass
β̃ = a + By.
• Insbesondere der KQ-Schätzer ist linear, denn β̂ = a + By mit
a = 0 und B = (X ′ X)−1 X ′ .
• Seien nun β̃1 und β̃2 zwei beliebige unverzerrte Schätzer für β .
95
• Man sagt der Schätzer β̃1 dominiert (über) den Schätzer β̃2 ,
wenn
Var(x′ β̃1 ) ≤ Var(x′ β̃2 )
für alle x
∈ Rm .
• D.h. eine beliebige Linearkombination der Komponenten von β̃1
kann keine größere Varianz als die entsprechende
Linearkombination der Komponenten von β̃2 aufweisen.
• In diesem Sinne ist β̃1 also ein „besserer“ Schätzer als β̃2 .
• Ein unverzerrter Schätzer β̃ wird nun als bester unverzerrter
Schätzer bezeichnet, wenn er über alle anderen existierenden
unverzerrten Schätzer dominiert.
96
• Gauss-Markoff-Theorem: Unter den Annahmen A1–A3 ist der
KQ-Schätzer
β̂ = (X ′ X)−1 X ′ y
der beste lineare unverzerrte Schätzer (BLUE) für β .
• Vorsicht: Das Gauss-Markoff-Theorem besagt lediglich, dass β̂
der Beste unter allen unverzerrten linearen Schätzern für β ist.
• Darüber hinaus vergleicht das besagte Theorem β̂ nicht etwa mit
etwaigen verzerrten Schätzern für β .
• Unter der zusätzlichen Standardannahme A4 ist der KQ-Schätzer
jedoch sogar der beste unverzerrte Schätzer (BUE)!
97
Teil II
Modelle mit stochastischen
Regressoren
R.A. Fisher
(1890–1962)
J. Heckman
(1944–dato)
98
Lars P. Hansen
(1952–dato)
4 Das bedingte lineare Regressionsmodell
4.1 Motivation
• Die Annahme fixer Regressoren wird nun fallen gelassen und
durch die Annahme stochastischer Regressoren ersetzt.
• Dies geschieht zunächst auf eine Art und Weise, bei der die
meisten Schlussfolgerungen des klassischen linearen Modells
ihre Gültigkeit behalten.
• In praktischen Anwendungen haben stochastische Regressoren
eine zentrale Bedeutung.
99
4.2 Standardannahmen
Für jede mögliche Realisation x der Regressormatrix X seien
folgende Standardannahmen erfüllt:
A1 Der bedingte Erwartungswert aller Residuen beträgt Null, d.h.
E(ui | X = x) = 0 ,
A2 alle Residuen besitzen die gleiche bedingte Varianz, d.h.
Var(ui | X = x) = σ 2 > 0 ,
A3 die Residuen sind bedingt unkorreliert, d.h.
Cov(ui , uj | X = x) = 0 für i 6= j und i, j = 1, . . . , n und
A4 die Residuen sind bedingt gemeinsam normalverteilt, d.h.
u1 , . . . , un | X = x ∼ N (0, σ 2 ) und bedingt unabhängig.
100
In kompakter Schreibweise lauten die Standardannahmen:
A1
A2–A3
A4
E(u | X = x) = 0 ,
Var(u | X = x) = σ 2 In mit σ 2 > 0 und
u | X = x ∼ Nn (0, σ 2 In ) .
• Damit bleiben die Standardannahmen des klassischen linearen
Regressionsmodells
unter der Bedingung gegebener Werte aller Regressoren
erhalten!
• Achtung: Es „wird so getan, als ob“ die Regressoren fix seien.
Nichtsdestotrotz handelt es sich um ein Modell mit zufälliger
Regressormatrix X (bis auf die erste Spalte).
101
• Annahme A1 wird als strikte Exogenität bezeichnet.
• Daraus folgt insbesondere
E(yi | X = x) = β1 + β2 xi2 + . . . + βm xim .
• D.h. die strikte Exogenität ersetzt die Linearitätsannahme des
klassischen linearen Regressionsmodells.
• Darüber hinaus lässt sich zeigen, dass aus A1
Cov(xij , ui ) = 0
für i
= 1, . . . , n und j = 2, . . . , m folgt.
• D.h. die strikte Exogenität beinhaltet, dass die Regressoren und
das Residuum unkorreliert sind (Exogenität).
102
4.3 Statistische Inferenz
4.3.1
Der Schätzer für β
• Unter A1 ist β̂ weiterhin unverzerrt, d.h. E(β̂) = β .
• Außerdem gilt unter einer sehr schwachen zusätzlichen
Regularitätsbedingung
p
β̂n −→ β ,
n −→ ∞ .
D.h. β̂ bleibt ebenso ein konsistenter Schätzer für β .
• Darüber hinaus ist β̂ unter A4 der (auf X ) bedingte
ML-Schätzer für β .
103
• Unter A1–A4 gilt
2
′
β̂ | X = x ∼ Nm β, σ (x x)
−1
.
• Bezüglich des Schätzers der Regressionskoeffizienten gilt
insbesondere
2
σ b −1
β̂s | X = x ∼ Nm−1 βs ,
Σxx .
n
• Bereits unter A1–A3 folgt wiederum unter einer sehr schwachen
zusätzlichen Regularitätsbedingung
√
d
2 −1
n (β̂s − βs ) −→ Nm−1 0, σ Σxx ,
n −→ ∞ .
• Hierbei symbolisiert Σxx die Kovarianzmatrix der Regressoren.
104
4.3.2
Der Schätzer für σ 2
• Unter A1–A4 lässt sich weiterhin zeigen, dass
n
X
i=1
û2i ∼ σ 2 χ2n−m .
• Damit gilt weiterhin E(σ̂ 2 ) = σ 2 , d.h. σ̂ 2 bleibt ein unverzerrter
Schätzer für die Residualvarianz σ 2 .
• Lässt man A4 fallen, so ist die letzte Aussage im Allgemeinen
nicht mehr gültig!
• Außerdem sind β̂ und σ̂ 2 unter A1–A4 stochastisch unabhängig,
jedoch nicht mehr zwangsläufig unter A1–A3.
105
• Unter A1–A3 und einer sehr schwachen zusätzlichen
Regularitätsbedingung gilt jedoch
2
p
σ̂ −→ σ 2 ,
n −→ ∞ .
D.h. σ̂ 2 ist zumindest konsistent für σ 2 .
• Genauso ist aber auch
n
X
1
2
σ̂û =
û2i
n i=1
in diesem Fall ein konsistenter Schätzer für σ 2 .
• D.h. in großen Stichproben kann man die Quadratsumme der
empirischen Residuen statt durch n − m einfach durch n teilen.
106
4.3.3
Hypothesentests für β1 , . . . , βm
Unter den Annahmen A1–A4 sind die folgenden Hypothesentests für
β1 , . . . , βm bereits in kleinen Stichproben gültig:
Nullhypothese
H0 : βj = βj0
H0 : βj ≤ βj0
H0 : βj ≥ βj0
Gegenhypothese
H1 : βj 6= βj0
H1 : βj > βj0
H1 : βj < βj0
Teststatistik
t=
βˆj −βj0
r
σ̂ 2
, (σ̂β̂2 , . . . , σ̂β̂2 ) = diag σ̂ 2 (x′ x)−1
1
m
β̂j
H0 ablehnen
|t| > tn−m;1− α2
t > tn−m;1−α
t < −tn−m;1−α
Exakte ein- und zweiseitige Hypothesentests für β1 , . . . , βm .
107
Unter den Annahmen A1–A3 sind die folgenden Hypothesentests für
β1 , . . . , βm erst in großen Stichproben approximativ gültig:
Nullhypothese
H0 : βj = βj0
H0 : βj ≤ βj0
H0 : βj ≥ βj0
Gegenhypothese
H1 : βj 6= βj0
H1 : βj > βj0
H1 : βj < βj0
Teststatistik
t=
βˆj −βj0
r
σ̂ 2
, (σ̂β̂2 , . . . , σ̂β̂2 ) = diag σ̂ 2 (x′ x)−1
1
m
β̂j
H0 ablehnen
|t| > Φ1− α2
t > Φ1−α
t < −Φ1−α
Approximative ein- und zweiseitige Hypothesentests für β1 , . . . , βm .
108
4.3.4
Der F - und χ2 -Test
• Unter A1–A4 bleibt der klassische F -Test für die Nullhypothese
H0 : β2 , . . . , βm = 0 weiterhin gültig.
• Sind jedoch lediglich die Annahmen A1–A3 erfüllt, so lässt sich
zeigen, dass unter H0 zumindest
2
d
nR −→ χ2m−1 ,
n −→ ∞ ,
gilt.
• H0 wird also abgelehnt, falls nR2 > χ2m−1;1−α bei einem
hinreichend großen Stichprobenumfang n .
109
4.3.5
Konfidenzintervalle für β1 , . . . , βm
• Unter A1–A4 ist
h
i h
i
β̂j,u , β̂j,o = β̂j − σ̂β̂j tn−m;1− α2 , β̂j + σ̂β̂j tn−m;1− α2
ein exaktes Konfidenzintervall für β1 , . . . , βm auf dem Niveau
1 − α bei einem beliebig großen Stichprobenumfang n > m .
• Fällt die Annahme A4 weg, so erhält man mit
h
i h
i
β̂j,u , β̂j,o = β̂j − σ̂β̂j Φ1− α2 , β̂j + σ̂β̂j Φ1− α2
ein approximatives Konfidenzintervall für β1 , . . . , βm auf dem
Niveau 1 − α bei einem hinreichend großen Stichprobenumfang.
110
5 Modellwahl
5.1 Die grundlegenden Ziele der linearen Regression
• Zur Erinnerung: Unter der Annahme der strikten Exogenität
E(ui | X = x) = 0 gilt
E(yi | X = x) = β1 + β2 xi2 + . . . + βm xim .
• Das erste Ziel der linearen Regression besteht darin,
∂E(yi | X = x)
= βj
∂xij
für j
= 1, . . . , m zu ermitteln.
111
• Man möchte also abschätzen, um wie viele Einheiten yi steigt,
wenn xij um eine Einheit steigt.
• Die Variable yi wird also durch die Variable xij erklärt.
• Wichtig: Man muss βj als partielle Ableitung interpretieren.
D.h. man tut so, als ob die anderen Regressoren konstant bleiben
(Ceteris-Paribus-Bedingung).
• Problem: In Wirklichkeit sind die Regressoren in aller Regel
miteinander korreliert.
• D.h. bei jeder Änderung von xij ändern sich auch die anderen
Regressoren. Diese haben aber i.d.R. ebenso einen Einfluss auf
die erklärte Variable!
112
• Das zweite Ziel der linearen Regression besteht darin,
n
o
β = (β1 , . . . , βm ) = arg min E (yi∗ − yi )2
b1 ,...,bm
zu finden, wobei yi∗
= b1 + b2 xi2 + . . . + bm xim .
∗
2
• Hierbei wird E (yi − yi ) als mittlerer Quadratfehler (engl.:
Mean Square Error, kurz: MSE) von yi∗ bezeichnet.
• Bei yi∗ handelt es sich um eine Vorhersage von yi .
• Man versucht also, jene Parameter β1 , . . . , βm zu finden, so
dass der MSE zwischen Vorhersage und Wirklichkeit minimal ist.
• In diesem Sinne hat man dann also die beste Vorhersage von yi
auf Basis der Variablen xi2 , . . . , xim erreicht.
113
5.2 Der Fundamentalsatz der linearen Regression
Im Folgenden seien µy
= E(yi ) und µx = E {(xi2 , . . . , xim )}.
n
β = arg min E (yi∗ − yi )2
b1 ,...,bm
o
m
  

β1
µy − βs′ µx
 =

βs
Σ−1
xx Σxy
m
E(ui ) = 0
Cov(xij , ui ) = 0 .
und
114
• Man kann zeigen, dass aus E(ui | X = x) = 0 automatisch
E(ui ) = 0 sowie Cov(xij , ui ) = 0 (→ Exogenität) folgt.
• D.h. die strikte Exogenität garantiert, dass der Fundamentalsatz
der linearen Regression erfüllt ist.
• Die grundlegenden Ziele der linearen Regression können nun wie
folgt zusammengefasst werden:
1. Die endogene Variable y soll durch die exogenen Variablen
x2 , . . . , xm erklärt werden und
2. die Variable y soll „so gut wie möglich“ durch eine affin-lineare
Kombination von x2 , . . . , xm vorhergesagt werden.
• Beachte: Für das Ziel „Vorhersage“ reicht die bloße Exogenität!
115
5.3 Erklärung
5.3.1
Die Bedeutung der Regressionskoeffizienten
• Unter gewissen Regularitätsbedingungen kann man zeigen, dass
es zunächst völlig egal ist, für welche Regressoren man sich bei
der Auswahl des linearen Modells entscheidet.
• Will sagen die Standardannahmen der linearen Regression mit
stochastischen Regressoren sind stets erfüllt!
• Der Parameter β hängt maßgeblich von den gewählten
Regressoren ab. Ersetzt man z.B. xj durch eine andere Variable,
so ändert sich im Allgemeinen der gesamte Vektor β .
116
• Gegeben seien die beiden folgenden Modelle:
A:
y = β1 + β2 x2 + . . . + βp xp + u
B:
y = γ1 + γ2 z2 + . . . + γq zq + v ,
wobei (x2 , . . . , xp ) und (z2 , . . . , zq ) unterschiedlich sind.
• Frage: Welches Modell ist nun „korrekt“?
• Antwort: Beide Modelle sind korrekt!
• A und B sind uneingeschränkt zulässig und stehen in keinem
Widerspruch zueinander.
117
• Nun sei
C:
y = α + β2 x2 + . . . + γq zq + w
ein anderes LIM. Die Regressoren sind hierbei gegeben durch
den Vektor (x2 , . . . , xp , z2 , . . . , zq ).
• Frage: Ist
A:
y = β1 + β2 x2 + . . . + βp xp + u
oder C das „korrekte“ Modell?
• Antwort: Wiederum sind beide Modelle korrekt und stehen in
keinem Widerspruch zueinander.
• Beachte: Im Allgemeinen wird βs in A nicht mit βs in C
übereinstimmen!
118
• Der Unterschied zwischen den linearen Modellen A, B und C
besteht lediglich darin, dass die endogene Variable anhand
unterschiedlicher Regressoren erklärt wird.
• Beachte: Die Regressoren x2 , . . . , xp , z2 , . . . , zq sind im
Allgemeinen miteinander korreliert.
• Der Vektor (β2 , . . . , βp ) im LIM C quantifiziert den partiellen
Einfluss von (x2 , . . . , xp ) auf y , wobei (z2 , . . . , zq ) als fix
erachtet wird.
• Dieser entspricht im Allgemeinen nicht dem totalen Einfluss von
(x2 , . . . , xp ) auf y , welcher wiederum durch (β2 , . . . , βp ) im
LIM A abgebildet wird.
• Ähnliches gilt auch für die Achsenabschnitte α und β1 .
119
• Quintessenz: Es existieren also de facto unendlich viele lineare
Regressionsmodelle für die endogene Variable y .
• Frage: Welche Regressoren sollten nun bei der Konstruktion
eines linearen Modells herangezogen werden?
• Antwort:
1. Zielt man auf die Erklärung von y ab, so sollte die Wahl der
Regressoren alleine auf Basis theoretischer Argumente (z.B.
ökonomischer Hypothesen) erfolgen.
2. Möchte man hingegen eine Vorhersage für y treffen, sollte
man sich auf Regressoren konzentrieren, welche die stärkste
Vorhersagekraft aufweisen.
120
Beispiel
• Gegeben sei das LIM
yi = β1 + β2 si + β3 ai + ui ,
i = 1, . . . , n ,
wobei yi das Einkommen, si die Ausbildung („Schooling“) und ai
die Begabung („Ability“) eines Individuums i darstellen.
• Die Ausbildung wird typischerweise durch die Anzahl der
Schuljahre gemessen.
• Man kann vermuten, dass si und ai positiv korreliert sind.
• D.h. eine höhere Begabung führt i.d.R. zu einer besseren
Ausbildung.
121
• Der totale Einfluss von si auf yi setzt sich aus
1. dem direkten Einfluss von si auf yi (si
→ yi ), sowie
2. dem indirekten Einfluss von si auf yi (si
→ ai → yi )
zusammen.
• D.h. wenn man den Einfluss der Ausbildung auf das Einkommen
bei gleich bleibender Begabung quantifizieren möchte, ist das
obige Modell „korrekt“.
• Möchte man hingegen den totalen Einfluss von si auf yi messen,
so lautet das korrekte Modell stattdessen
yi = α + βsi + vi ,
122
i = 1, . . . , n .
5.3.2
Kollinearität
• Nun betrachte man das einfache LIM
yi = α + βfi + ui ,
i = 1, . . . , n ,
wobei yi die Anzahl der Verbrechen ist, die von einem Individuum
i begangen werden.
• Ferner ist fi eine Indikatorvariable mit den möglichen
Ausprägungen

 0,
fi =
 1,
i ist Inländer,
i ist Ausländer.
• Die ∅ Anzahl der Verbrechen eines Ausländers ist also α + β .
123
• Angenommen β ist positiv. Frage: Bedeutet das, dass Ausländer
im Allgemeinen krimineller sind, als Inländer?
• Antwort: Nein!
• Grund: Viele andere Faktoren (z.B. sozialer Status, Einkommen,
etc.) können die Delinquenz eines Individuums determinieren.
• Nun betrachte man das LIM
yi = β1 + β2 fi + β3 si + vi ,
i = 1, . . . , n ,
wobei si den sozialen Status des Individuums i misst.
• Üblicherweise sind fi und si negativ korreliert, d.h. Ausländer
sind unterprivilegiert.
124
• Dieser Effekt wird im zweiten LIM erfasst.
• Der Parameter β2 hat hier eine ganz andere Bedeutung, als das
β im ersten LIM.
• β2 quantifiziert den Einfluss der Nationalität auf die Delinquenz
bei gleich bleibendem sozialen Status.
• Dieser Wert kann sogar negativ sein, obwohl β im ersten Modell
positiv ist!
• Diesen Effekt bezeichnet man als negative Kollinearität.
125
Beispiel
• Gegeben sei das LIM
yt = β1 + β2 xt2 + β3 xt3 + ut ,
t = 1, . . . , n .
• Hierbei seien yt der Kakaopreis, xt2 der Kaffeepreis und xt3 der
Teepreis zum Zeitpunkt t .
• Angenommen β2 ist negativ. Frage: Hat der Kaffeepreis einen
negativen Einfluss auf den Kakaopreis?
• Antwort: Nicht unbedingt! Die Preise von Kaffee und Tee sind
nämlich i.d.R. stark positiv korreliert.
126
• Falls β3 > 0 kann der indirekte Einfluss xt2 → xt3 → yt den
direkten Einfluss xt2 → yt überwiegen.
• Diesen Effekt nennt man positive Kollinearität.
• Wenn zwei Regressoren stark miteinander korreliert sind, spricht
man von Kollinearität. Sind mindestens zwei Regressoren stark
miteinander korreliert, so spricht man von Multikollinearität.
• Im Falle der Multikollinearität erhält man keine validen Schätzer
für die Parameter eines LIM. Multikollinearität wirkt sich also
negativ auf die Erklärung aus.
• Multikollinearität hat jedoch überhaupt keinen Einfluss auf die
Güte der Vorhersage!
127
5.3.3
Der Omitted Variables Bias
• Man betrachte nun die zwei LIMs
A’:
y = α + β2 x2 + . . . + βp xp + w
C:
y = α + β2 x2 + . . . + γq zq + w ,
wobei bei C angenommen wird, dass mindestens ein γj
6= 0 .
• Hier besteht nun tatsächlich ein Konflikt zwischen A’ und C.
• Grund: Man nimmt an, dass die Parameter α, β2 , . . . , βp sowie
der Störterm w in beiden Modellen identisch sind!
• Entweder sind alle γj = 0 (A’) oder mindestens ein γj 6= 0 (C).
128
• D.h. entweder A’ oder C ist korrekt, jedoch können A’ und C nicht
gemeinsam gültig sein.
• A’ ist eingebettet in dem linearen Regressionsmodell
C’:
y = α + β2 x2 + . . . + γq zq + w .
• Beachte: Beim Letzteren wird nicht angenommen, dass
mindestens ein γj 6= 0 ist.
• Man lehnt A’ zugunsten von C ab, wenn die Nullhypothese
H0 : γ2 = . . . = γq = 0 verworfen wird.
• Die Nullhypothese kann wieder mit Hilfe eines speziellen F -Tests
überprüft werden.
129
• C kann äquivalent formuliert werden als
C:
mit w ∗
y = α + β2 x2 + . . . + βp xp + w ∗
= γ2 z2 + . . . + γq zq + w .
• D.h. man möchte den partiellen Einfluss des Vektors
(x2 , . . . , xp ) auf y unter der Ceteris-Paribus-Bedingung
bezüglich des Vektors (z2 , . . . , zq ) analysieren.
• Problem: Die Regressoren z2 , . . . , zq werden bei der
Konstruktion des linearen Modells weggelassen (engl.: omitted)!
• Das führt schließlich zu einer (sogar asymptotisch) verzerrten
Schätzung der Parameter α, β2 , . . . , βp .
• Man spricht hierbei vom sogenannten Omitted Variables Bias.
130
Beispiel
• Man betrachte wieder die Ausbildungsgleichung
yi = β1 + β2 si + β3 ai + ui ,
i = 1, . . . , n .
• Die Begabung eines Individuums wird also „omitted“,
1. sofern β3
6= 0 ,
2. man nach den Parametern β1 und β2 sucht, diese jedoch
3. fälschlicherweise auf Basis der Regressionsgleichung
yi = β1 + β2 si + vi ,
schätzt.
131
i = 1, . . . , n ,
5.4 Vorhersage
5.4.1
Schätzung der Parameter
• Im Gegensatz zur Erklärung ist es bei der Vorhersage prinzipiell
egal, welche Regressoren man wählt.
• Angenommen man möchte sich auf m − 1 Regressoren
konzentrieren.
• Das zugrunde liegende LIM ist also
y = β1 + β2 x2 + . . . + βm xm + u .
• Man könnte stattdessen auch jede andere Menge von m − 1
Regressoren zwecks Vorhersage von y wählen.
132
• Zur Erinnerung: Der Störterm ist gerade
u = y − β1 − β2 x2 − . . . − βm xm
und hängt damit von den gewählten Regressoren ab.
• Am besten eignet sich also jene Menge von m − 1 Regressoren,
bei der die Varianz des Störterms am kleinsten ist.
• Für jede beliebige Menge von Regressoren gilt der
Fundamentalsatz, d.h. der Vektor β der optimalen Parameter
β1 , . . . , βm ist stets gegeben durch
  

β1
µy − βs′ µx
.
β= =
βs
Σ−1
xx Σxy
133
• Der KQ-Schätzer für den unbekannten Vektor β lautet
  

′
β̂
ȳ
−
β̂
1
s x̄
′
−1 ′
.
β̂ = (X X) X y =   = 
b −1
b
β̂s
Σ
xx Σxy
• Hierbei symbolisiert x̄ den Vektor der empirischen Mittelwerte der
Regressoren x2 , . . . , xm .
• D.h. beim KQ-Schätzer werden die unbekannten theoretischen
Momente der gemeinsamen Verteilung von y, x2 , . . . , xm durch
die entsprechenden empirischen Momente ersetzt.
• Es liegt also abermals nahe, β durch den KQ-Schätzer β̂ zu
approximieren.
134
5.4.2
Bedingte Punktvorhersage
• Gegeben sei das LIM
yt = β1 + β2 xt2 + . . . + βm xtm + ut
für t
= 1, . . . , n, n + 1, . . . , T .
• Angenommen yt und xt2 , . . . , xtm wurden an vergangenen
Zeitpunkten t = 1, . . . , n beobachtet.
• Die Realisationen von yt , xt2 , . . . , xtm an den künftigen
Zeitpunkten n + 1, . . . , T kennt man allerdings noch nicht.
• Ferner seien die Standardannahmen des bedingten linearen
Regressionsmodells erfüllt.
135
• Das Ziel besteht nun darin, die Variable yt zu einem künftigen
Zeitpunkt t ∈ {n + 1, . . . , T } zu prognostizieren.
• Das Ganze soll auf Basis des KQ-Schätzers β̂ erfolgen.
• Für diesen verwendet man lediglich die Beobachtungen von
xt2 , . . . , xtm für t = 1, . . . , n .
• Die Vorhersage von yt lautet somit
ŷt∗ = β̂1 + β̂2 xt2 + . . . + β̂m xtm
für ein beliebiges t
∈ {n + 1, . . . , T }.
• Problem: Die künftigen Realisationen von xt2 , . . . , xtm sind im
Zeitpunkt t = n ebenfalls unbekannt.
136
• Lösung: Man tut so, als ob man die künftigen Realisationen zum
Zeitpunkt t = n bereits kennen würde.
• Aus diesem Grund spricht man hierbei von einer bedingten
(Punkt-)Vorhersage.
• Der Vorhersagefehler beträgt nun
û∗t = ŷt∗ − yt
= (β̂1 − β1 ) + (βˆ2 − β2 ) xt2 +
. . . + (β̂m − βm ) xtm − ut .
• D.h. der Vorhersagefehler setzt sich aus zwei Komponenten
zusammen: Dem Schätzfehler β̂ − β und der Störung ut .
137
• Im Folgenden sei X (n × m) die Regressormatrix der bereits
beobachteten Werte bis zum Zeitpunkt t = n .
• Hingegen sei X (T × m) die Regressormatrix aller
Beobachtungen bis zum Zeitpunkt t = T .
• Beachte: Aufgrund der strikten Exogenität gilt
E(β̂ − β | X = x) = 0
sowie
Var(β̂ | X = x) = σ 2 (X ′ X)−1 .
• Die bedingte Kovarianzmatrix von β̂ hängt also lediglich von den
Regressorwerten in der vergangenen Periode t = 1, . . . , n ab.
• Der Einfachheit halber sei im Folgenden xt = (1, xt2 , . . . , xtm ) .
138
• Der Vorhersagefehler kann dann kompakter dargestellt werden:
û∗t = x′t (β̂ − β) − ut .
• Beachte: Die Vorhersage ist unverzerrt, denn es gilt
h
i
E(û∗t ) = E E{x′t (β̂ − β) − ut | X = x}


E x′t E{β̂ − β | X = x} −
|
{z
}
=0




E E(ut | X = x) = 0 .
{z
}
|
=0
139
5.4.3
Bedingte Intervallvorhersage
• Die bedingte Varianz des Vorhersagefehlers beträgt
′
∗
Var(ût | X = x) = Var xt (β̂ − β) − ut | X = x
= x′t Var(β̂ | X = x) xt + Var(ut | X = x)
= σ 2 x′t (X ′ X)−1 xt + σ 2
2
′
′
−1
= σ 1 + xt (X X) xt .
• Die Residualvarianz σ 2 wird hierbei wieder durch σ̂ 2 geschätzt.
• Der Standardfehler der Vorhersage beträgt damit
p
σ̂f = σ̂ 1 + x′t (X ′ X)−1 xt .
140
• Gesucht ist nun ein bedingtes Vorhersageintervall auf dem
Konfidenzniveau 1 − α , d.h. eine Zahl τ , so dass
P (ŷt∗ − τ σ̂f ≤ yt ≤ ŷt∗ + τ σ̂f ) = 1 − α .
• Aufgrund der strikten Exogenität (A1) sowie der
Normalverteilungsannahme (A4) gilt
i
û∗t | X = x ∼ N 0, σ 2 1 + x′t (X ′ X)−1 xt .
• Man kann zeigen, dass
h
û∗t
ŷt∗ − yt
=
∼ tn−m und damit τ = tn−m,1− α2 .
σ̂f
σ̂f
141
5.4.4
Ex-Ante- vs. Ex-Post-Vorhersage
Ex-Ante-Vorhersage: Weder die künftigen Realisationen
1. der erklärenden Variablen xt2 , . . . , xtm noch
2. der erklärten Variablen yt
sind bekannt.
• Die Prognose erfolgt also auf Basis vorhergesagter
Regressoren x̂t2 , . . . , x̂tm .
• Diese Situation trifft man typischerweise in der Praxis an.
142
Ex-Post-Vorhersage: Sowohl die künftigen Realisationen
1. der erklärenden Variablen xt2 , . . . , xtm als auch
2. der erklärten Variablen yt
sind bekannt.
Für die bedingte Vorhersage gibt es nun zwei Ansätze. Entweder
man wählt
1. die bereits bekannten Realisationen xt2 , . . . , xtm oder
2. vorhergesagte Werte x̂t2 , . . . , x̂tm , auf Basis der bis t
vorhandenen Historie.
143
=n
• Die Ex-Post-Vorhersage wird üblicherweise verwendet, um die
Vorhersagekraft der bedingten Prognose zu bestimmen.
• Dabei vergleicht man die wahre Realisation von yt mit der
dazugehörigen Vorhersage ŷt∗ .
• Bei der ersten Methode wird lediglich der Einfluss des
Schätzrisikos bezüglich β und des Störterms ut quantifiziert.
• Bei der zweiten Methode wird zusätzlich das Schätzrisiko
hinsichtlich xt2 , . . . , xtm (t > n) in Betracht gezogen.
• Die Schätzung der Regressoren wird dabei anhand historischer
Daten simuliert.
• Man spricht daher von einer historischen Simulation.
144
5.5 Das Auswahlproblem
5.5.1
Data Mining
• Man sollte stets bedenken, dass die Parameter β1 , . . . , βm eines
linearen Modells unbekannt sind und daher geschätzt werden
müssen.
• Jeder Schätzer unterliegt jedoch einem gewissen Schätzrisiko.
D.h. die geschätzten Parameter können erheblich von den
tatsächlichen Werten abweichen.
• Darum kann es fatale Folgen haben, wenn man auf Basis einer
Voruntersuchung z.B. entscheidet, welche Regressoren für die
Vorhersage oder Erklärung von y herangezogen werden sollen.
145
• Man kann tatsächlich oft beobachten, dass Forscher
1. die Menge der Regressoren und/oder
2. die zur Schätzung benötigten Daten
auf Basis einer Voruntersuchung bestimmen.
• Die Voruntersuchung wird dann typischerweise solange
betrieben, bis man
1. signifikante Regressoren gefunden hat,
2. bestimmte Hypothesen ablehnen kann oder
3. das LIM ein hinreichend großes R2 aufweist.
146
• Ein solches Vorgehen wird als Data Snooping, Sata Dredging,
Data Pruning, Data Fishing oder Data Mining bezeichnet.
• Bei einer anschließenden Analyse hat man es dann mit Daten zu
tun, die nicht mehr repräsentativ für die Grundgesamtheit sind.
• Vielmehr ist die Stichprobe verzerrt und man spricht dabei von
einem sogenannten Selektionsbias.
• Passt man das LIM an eine solche Stichprobe an, erhält man
verzerrte Schätzwerte.
• Das wirkt sich nicht nur negativ auf die Erklärung, sondern auch
auf die Vorhersage der endogenen Variablen y aus!
147
• Der Selektionsbias kann zu Scheinerkenntnissen bezüglich der
1. Modellparameter,
2. Konfidenzintervalle und
3. etwaiger Hypothesen
führen.
• Es handelt sich hierbei um eins der gravierendsten Probleme
empirischer Wissenschaften!
• Manche Menschen gehen davon aus, dass mindestens 80% aller
Veröffentlichungen dem Selektionsbias unterliegen.
• Inzwischen wird dieses Phänomen sogar wissenschaftlich
erforscht, unter dem Stichwort Publication Bias.
148
Beispiel
• Der Determinationskoeffizient R2 wird oft verwendet, um die
Anpassungsgüte eines LIMs zu messen.
• Um die klassische Nullhypothese
H0 : β2 = . . . = βm = 0
vs.
H1 : ¬ H0 ,
zu testen, verwendet man gerade die Teststatistik
R2
n−m
F =
·
.
2
1−R m−1
• Dieser F -Test ist jedoch nicht mehr gültig, sofern Data Mining
vorliegt. Insbesondere dann, wenn man die Regressoren/Daten
gerade so ausgesucht hat, dass das R2 hinreichend groß ist.
149
• Problem: Für jede empirische Studie müssen Daten und
Regressoren vorab ausgewählt werden.
• Data Mining tritt jedoch lediglich auf, wenn die ausgewählte
Stichprobe nicht repräsentativ ist.
• Exkurs: Eine Stichprobe ist repräsentativ, wenn sie die
interessierende Grundgesamtheit widerspiegelt.
• Wählt man z.B. die Daten und Regressoren rein deduktiv aus,
d.h. auf Basis einer ökonomischen Theorie, so handelt es sich
nicht um Data Mining.
• Eine Vorauswahl ist also erlaubt, solange diese nicht induktiv,
d.h. auf Basis statistischer Schlussfolgerungen, erfolgt.
150
• Nicht jede Studie, die auf Data Mining beruht, kommt
zwangsläufig zu falschen Schlussfolgerungen.
• Data Mining kann jedoch die Wahrscheinlichkeit falscher
Schlussfolgerungen drastisch erhöhen.
• Sei m die Anzahl der Regressoren in einer Voruntersuchung. Das
Verhältnis q = n/m wird als effektiver Stichprobenumfang
bezeichnet.
• Die Wahrscheinlichkeit einer falschen Schlussfolgerung ist umso
größer, je kleiner der effektive Stichprobenumfang ist.
• D.h. selbst bei einem großen Stichprobenumfang n kann sich
Data Mining negativ auswirken, sofern die Anzahl der
vorhandenen Variablen ebenso groß ist!
151
5.5.2
Komplexität
• Ein Modell bezüglich einer endogenen Variablen y ist eine
Funktion f (· ; θ) exogener Variablen x1 , . . . , xk , so dass
y = f (x1 , . . . , xk ; θ) .
• Hierbei ist θ = (θ1 , . . . , θm ) ein unbekannter Parametervektor.
• Zwecks Schätzung der Parameter θ1 , . . . , θm betrachtet man das
dazugehörige statistische Modell
y = f (x1 , . . . , xk ; θ) + u ,
wobei u ein Störterm ist.
• Der Vektor θ kann mit der KQ-Methode geschätzt werden.
152
3000
2000
1000
0
-1000
-2000
-3000
-4000
-10
f (x ; θ)
-5
0
x
Ein exemplarisches Modell.
153
5
10
4000
2000
y
0
-2000
-4000
-6000
-10
-5
0
x
5
10
Das Modell mit Realisationen der endogenen Variablen.
154
4000
2000
0
-2000
-4000
-6000
-10
y
-5
0
x
Das geschätzte Modell.
155
5
10
• Je mehr Parameter und Wendepunkte ein Modell hat, desto
komplexer ist es.
• Passt man ein einfaches Modell an eine komplexe Wirklichkeit an,
so spricht man vom Underfitting.
• Die Vorhersage der endogenen Variablen ist dann verzerrt.
• Hingegen besitzt die Vorhersage in diesem Fall eine relativ kleine
Varianz.
• D.h. man kommt relativ sicher zum falschen Ergebnis.
• Z.B. stellt das LIM ein einfaches Modell dar!
• Wenn die Wirklichkeit also komplex ist, führt das lineare Modell zu
verzerrten Vorhersagen.
156
4000
2000
0
-2000
-4000
-6000
-10
y
-5
0
x
Underfitting
157
5
10
• Umgekehrt spricht man vom Overfitting, wenn man ein
komplexes Modell and eine einfache Wirklichkeit anpasst.
• In diesem Fall erhält man eine unverzerrte Vorhersage.
• Allerdings besitzt die Vorhersage in diesem Fall eine große
Varianz.
• Das bedeutet man kommt relativ unsicher zum richtigen Ergebnis.
• In diesem Fall wäre das lineare Modell eine geeignete Alternative.
158
f (x ; θ)
30
20
10
0
-10
-20
-10
-5
0
x
Ein einfaches Modell.
159
5
10
y
30
20
10
0
-10
-20
-30
-10
-5
0
x
5
Die dazugehörigen Realisationen.
160
10
y
30
20
10
0
-10
-20
-30
-10
-5
0
x
5
Das angepasste komplexe Modell.
161
10
• Die Statistik lehrt uns, dass sich viele Probleme von selbst
erledigen, wenn der Stichprobenumfang n gegen unendlich geht.
• D.h. bei einem hinreichend großen Stichprobenumfang
entsprechen die Schätzwerte in etwa den gesuchten Parametern.
• Dabei wird allerdings unterstellt, dass das statistische Modell der
Wirklichkeit entspricht!
• Was passiert nun, wenn die Wirklichkeit komplexer ist, als das
statistische Modell et vice versa?
• Frage: Wann dürfen wir den Ergebnissen selbst bei einem
großen Stichprobenumfang nicht trauen?
162
4000
2000
y
0
-2000
-4000
-6000
-10
-5
0
x
5
10
Ein einfaches Modell bei großem Stichprobenumfang.
163
50
40
30
20
10
0
-10
-20
-30
-10
-5
164
0
x
5
10
Ein komplexes Modell bei großem Stichprobenumfang.
y
Zusammenfassung
• Underfitting führt zu einer verzerrten Schätzung der Parameter.
• Dafür ist die Varianz der Schätzer relativ klein.
• Selbst bei einem großen Stichprobenumfang bleiben die Schätzer
verzerrt!
• Overfitting führt zu einer unverzerrten Schätzung der Parameter.
• Die Varianz der Schätzer ist hingegen relativ groß.
• Sie sinkt jedoch mit dem Stichprobenumfang.
• Es gibt also stets einen Bias/Varianz-Trade-Off.
165
5.6 Ansätze zur Behebung des Auswahlproblems
5.6.1
Der Umgang mit Overfitting
• Zur Erinnerung: Die KQ-Summe û′ û sinkt mit der Anzahl m der
Regressoren. Je größer jedoch die Anzahl der Regressoren,
desto größer ist die Gefahr eines Overfittings.
• Overfitting führt zu einer hohen Varianz und erhöht damit die
Gefahr einer Fehlvorhersage.
• D.h. es gibt einen Trade-Off zwischen der Anpassungsgüte eines
linearen Modells und seiner Vorhersagekraft.
• Ergo: Je besser die Anpassung, desto schlechter die Vorhersage!
166
Ex-Post-Vorhersage
• Zunächst zerlegt man die gesamte Stichprobe in eine
1. Kalibrierungsmenge und eine
2. Validierungsmenge.
• Mit der Kalibrierungsmenge werden die nötigen Parameter
geschätzt.
• Zur Ermittlung der Vorhersagekraft des linearen Modells
berechnet man nun das R2 anhand der Validierungsmenge.
• Bei Verwendung von Längsschnittsdaten sollte die Aufteilung
der Stichprobe chronologisch sein.
167
Kreuzvalidierung
• Bei der Kreuzvalidierung zerlegt man die Stichprobe in
1 < k ≤ n Teilstichproben.
• Zunächst nimmt man die erste Teilstichprobe zur Validierung und
die restlichen k − 1 Teilstichproben zur Modellbildung, etc.
• Beachte: Bei der Modellbildung muss man genauso vorgehen,
wie man es sonst auch getan hätte.
• Anschließend nimmt man die zweite Teilstichprobe zur Validierung
und die restlichen k − 1 Teilstichproben zur Validierung, u.s.w.
• Nachdem alle k Teilstichproben zur Validierung herangezogen
wurden, berechnet man z.B. das durchschnittliche R2 .
168
• Je größer die Validierungsmengen, desto besser ist auch die
Einschätzung der Vorhersagekraft, jedoch verschlechtert sich
diese mit der Größe der Validierungsmenge.
• Je kleiner die Validierungsmengen, desto besser ist die
Vorhersagekraft, jedoch kann man diese dann umso schlechter
einschätzen.
• Ein Spezialfall der Kreuzvalidierung ist die sogenannte
Leave-One-Out-Validierung, bei der die Validierungsmengen nur
aus einer einzigen Beobachtung bestehen.
169
• Die Ex-Post-Vorhersage bietet sich an, wenn man mit
Längsschnittsdaten arbeitet.
• Die Kreuzvalidierung ist bei Längsschnittsdaten jedoch gänzlich
ungeeignet eignet sich aber umso besser bei Querschnittsdaten.
• Beachte: Die Stichprobe muss bei diesen Validierungsverfahren
stets zerlegt werden.
• Das Ergebnis bildet daher nicht die Vorhersagekraft ab, welche
auf Basis aller momentan zur Verfügung stehenden Daten
gegeben wäre.
• Um die tatsächliche Vorhersagekraft zu messen, werden
üblicherweise Informationskriterien verwendet.
170
Informationskriterien
• Das Akaike-Informationskriterium:
AIC
= n log(û′ û/n) + 2m .
• Das Bayessche Informationskriterium:
BIC
= n log(û′ û/n) + log(n) m .
• Eine zu hohe Anpassungsgüte wird also durch die Komplexität
des verwendeten Modells bestraft.
• Bei einem gegebenem Stichprobenumfang kann man davon
ausgehen, dass das Modell mit dem kleinsten Wert für das
Informationskriterium die größte Vorhersagekraft besitzt.
171
• Man beachte dass log 8 = 2.0794 > 2 . D.h. im Falle n ≥ 8
zieht das BIC im Vergleich zum AIC sparsamere Modelle vor.
• Informationskriterien können nur zum Vergleich diverser Modelle
verwendet werden, sofern man sich dabei auf die gleiche
Stichprobe bezieht!
• Die hier dargestellten Formeln für die Informationskriterien gehen
vom linearen Modell aus. Die Informationskriterien lassen sich
jedoch viel allgemeiner definieren.
• Es wird allerdings stets ein parametrisches Modell unterstellt.
172
• Bei einem LIM sollte man statt R2 das adjustierte R2 , d.h.
2
Radj
σ̂ 2
n
σ̂û2
· 2,
=1− 2 =1−
σ̂y
n − m σ̂y
verwenden, wobei
und
n
X
1
2
σ̂û =
û2i
n i=1
n
X
1
2
σ̂y =
(yi − ȳ)2 .
n i=1
• Das adjustierte R2 ist also kein Maß für die Anpassungsgüte,
sondern für die Vorhersagekraft des linearen Modells.
173
5.6.2
Der Umgang mit Data Mining
• Data Mining führt zu einer großen Verzerrung und kann de facto
alle induktiven Verfahren ungültig machen.
• Es entsteht oft nachdem Overfitting betrieben wurde.
• Beachte: Overfitting führt zunächst zu einer hohen Varianz,
während Data Mining zu einer großen Verzerrung führt.
• Darüber hinaus existieren aber – wie bereits besprochen – noch
weitere Ursachen des Data Minings.
• Was kann man tun, um einen potenziell schädlichen Effekt durch
Data Mining zu vermeiden?
174
Merksätze zur Vermeidung von Data Mining
• Wähle die Stichprobe oder die Menge der Regressoren niemals
auf Basis induktiver Verfahren aus!
• Das schließt auch die Verwendung des adjustierten R2 und der
Informationskriterien zum Zwecke einer Vorauswahl aus!
• Wähle die Stichprobe und die Menge der Regressoren alleine auf
Basis einer (ökonomischen) Theorie. Diesen Ansatz nennt man
deduktiv.
• Teste niemals Hypothesen, die aus einer empirischen
Betrachtung hervorgegangen sind! D.h. eine Nullhypothese sollte
bereits feststehen, bevor die Daten gesichtet wurden.
175
Der Out-of-Sample-Test
• Manchmal lässt sich Data Mining jedoch gar nicht vermeiden.
• Beispiel: Man sucht nach „guten“ Regressoren für eine
Vorhersage ohne ein plausibles theoretisches Modell zu besitzen.
• Dann sollte man den gegebenen Datensatz wieder in eine
Kabrierungs- und Validierungsmenge zerlegen.
• Die Kalibrierungsmenge wird oft als In-Sample und die
Validierungsmenge als Out-of-Sample bezeichnet.
• Dann kann man ohne Hemmungen Data Mining betreiben.
• Jedoch müssen die ermittelten Ergebnisse anschließend einem
Out-of-Sample-Test unterzogen werden!
176
Bootstrapping
• Beim Bootstrapping zieht man wiederholt mit Zurücklegen eine
große Anzahl von Stichproben des Umfangs n aus der
gegebenen Stichprobe.
• Jedes Bootstrap-Sample dient dann als Kalibrierungsmenge,
wobei auch hier wieder der eigentliche Mechanismus der
Modellbildung und Datenauswahl repliziert werden soll.
• Anschließend werden die Ergebnisse mit der eigentlichen
Stichprobe evaluiert. Auf diese Weise lassen sich Bias und
Varianz aufgrund von Data Mining feststellen.
• Vorsicht: Bootstrapping funktioniert nur bei einem großen
effektiven Stichprobenumfang!
177
Zusammenfassung
• Es existiert ein natürlicher Trade-Off zwischen Validierung und
Kalibrierung:
– Kleine Kalibrierungsmenge und große Validierungsmenge →
Gute Einschätzung der Vorhersagekraft eines vermutlich
schlechten Modells.
– Große Kalibrierungsmenge und kleine Validierungsmenge →
Das Modell ist vermutlich gut, jedoch lässt sich die
Vorhersagekraft schlecht einschätzen.
• Dieser Trade-Off ergibt sich nur bei einem kleinen effektiven
Stichprobenumfang n/m .
178

Documents pareils