Kurzeinführung in EViews Eine einfache Konsumfunktion

Transcription

Kurzeinführung in EViews Eine einfache Konsumfunktion
Empirische Methoden (MA)
SS 2011
Übungsblatt 1
Willi Mutschler
[email protected]
Kurzeinführung in EViews
1. Starten Sie EViews und laden Sie das workfile Konsum.wf1“ (workfiles sind das von
”
EViews benutzte Datenformat). Eine gute Kurzeinführung bietet Stanz, Richard
(2007): EViews Illustrated for Version 6, Chapter I. Folgen Sie den Schritten des Kapitels, benutzen Sie jedoch die Zeitreihe PrivKonsum aus dem Datensatz
Konsum.wf1. Machen Sie sich insbesondere mit folgenden Dingen vertraut:
• Grafische Veranschaulichung und Übersichtsstatistiken
• Veränderung des Beobachtungszeitraums
• Erstellung von neuen Reihen und der Logarithmusfunktion
• Scatterplots inkl. Regressionslinie
• Einfache Regressionsanalyse: Regressionsoutput, (Grafische) Analyse der Residuen und Prognosen.
• Organisation des Workspaces und Speichern
Solution: Vgl. Stanz, Richard (2007): EViews Illustrated for Version 6, Chapter I.
Eine einfache Konsumfunktion1
2. Eine einfache Konsumfunktion erklärt den Konsum als Funktion des Einkommens
Ct = β0 + β1 Yt + ut
(1)
C bezeichnet den realen privaten Konsum und Y das reale verfügbare Einkommen.
Diese soll in der folgenden Aufgabe geschätzt werden. Öffnen Sie dazu zunächst den
Datensatz Konsum.wf1“ und betrachten Sie folgende Datensatzbeschreibung:
”
• CPI: Quelle Deutsche Bundesbank: Consumer-Price-Index, Preisindex (2005=100),
quarterly, seasonally adjusted.
1
Diese Aufgabe ist angelehnt an Hackl, Peter (2005): Einführung in die Ökonometrie.
Emp. Methoden (MA)/Blatt 1
– Page 2 of 8 –
Willi Mutschler
• Priv Konsum: Quelle Deutsche Bundesbank: Consumer expenditures in Billion
Euros (also in Mrd. Euro), quarterly, current prices, seasonally adjusted.
• Verf EK: Quelle Deutsche Bundesbank: Disposable income in Billion Euros
(also in Mrd. Euro), quarterly, current prices, seasonally adjusted.
• Zins: Quelle Datastream: Long-Term government bond yield 9-10 Years, quarterly, interest rate.
(a) Erstellen Sie nun zwei neue Zeitreihen für den realen privaten Konsum und das
reale verfügbare Einkommen.
(i) Betrachten Sie beide Zeitreihen als Liniendiagramm.
(ii) Betrachten Sie beide Zeitreihen als Scatterplot.
(iii) Wie hoch ist die Kovarianz und die Korrelation?
(iv) Lässt sich ein Zusammenhang erkennen?
Solution: series ek=verf ek/cpi; series konsum=priv konsum/cpi
Durch Markieren von beiden Zeitreihen (Reihenfolge beachten: Einkommen auf
die x-Achse, Konsum auf die y-Achse!), Rechtsklick, Open as Group werden die
darzustellenden Zeitreihen in einem eigenen Fenster geöffnet. (i) Anklicken von
View, dann Line Graph liefert das Liniendiagramm. (ii) Anklicken von View,
dann Scatter liefert das Streudiagramm.
3.4
3.3
3.6
3.2
KONSUM
3.8
3.4
3.1
3.2
3.0
3.0
2.9
2.8
2.8
92
94
96
98
EK
00
02
04
KONSUM
06
08
10
3.2
3.3
3.4
3.5
3.6
3.7
3.8
EK
Man erkennt den positiven Zusammenhang zwischen Konsum und Einkommen:
steigt das Einkommen, wird mehr konsumiert.
(iii) Die Analyse der Korrelation bestätigt diese Vermutung: Anklicken von View,
Covariance Analysis und dann bei Covariance und Correlation ein Häkchen machen liefert die Kovarianz/Korrelationsmatrix. Die Kovarianz ist gleich 0.021282
und der Korrelationskoeffizienten hat einen Wert nahe bei Eins (0.972232).
(iv) Alles deutet auf einen starken positiven linearen Zusammenhang hin.
Emp. Methoden (MA)/Blatt 1
– Page 3 of 8 –
Willi Mutschler
(b) Führen Sie nun eine Schätzung von (1) durch und interpretieren Sie die Koeffizienten β0 und β1 .
Solution:
Variable
Coefficient
Std. Error t-Statistic
Prob.
C
-0.291805
0.095048
-3.070071
0.0029
EK
0.973807
0.026541
36.69125
0.0000
βb0 = −0.291805 ist die Konstante bzw. der Achsenabschnitt. Wenn das reale
verfügbare Einkommen Null beträgt, so beträgt der Konsum -0.291805 Mrd. Euro.
Dies ist unsinnig. Die Konstante legt einfach nur ein Niveau fest. Oft ist eine
Interpretation nicht möglich bzw. unsinnig. βb1 = 0.973807 ist der marginale Effekt
des realen verfügbaren Einkommens. Wenn dieses um eine Einheit steigt, hier also
um eine Mrd. Euro, dann steigt der Konsum um 0.973807 Mrd. Euro.
(c) Schätzen Sie nun folgendes Modell:
log(Ct ) = β0 + β1 log(Yt) + ut
(2)
Interpretieren Sie nun die Koeffizienten β0 und β1 . Macht dieses Ergebnis ökonomisch Sinn?
Solution:
Variable
Coefficient
Std. Error t-Statistic Prob.
C
-0.243854
0.038080
-6.403707
0.0000
0.029874
36.87903
0.0000
LOG(EK) 1.101739
Das Interzept βb0 = −0.243854 beschreibt, wie viel konsumiert würde, wenn das
verfügbare Einkommen Null wäre. Der negative Wert ist natürlich nicht realistisch
und ist ein Hinweis (i) auf mögliche Mängel in der Modell-Spezifikation und (ii)
darauf, wie problematisch das Extrapolieren eines Modells in einen Bereich des
Regressors ist, für den keine Beobachtungen verfügbar sind.
Interpretation βb1 = 1.101739: Sowohl die endogene als auch die exogene Variable
liegen in Logarithmen vor, d.h. hier ist eine Interpretation als Elastizität möglich,
denn:
log(yt) = β0 + β1 log(xt ) + ut
∆log(yt) = ∆log(yt)
∆log(xt ) =
∆yt
∆log(yt )
1
∆yt
=
∆yt = ∆yt =
∆yt
∆yt
yt
yt
∆xt
xt
∆log(yt)
=
β1 =
∆log(xt )
∆yt
yt
∆xt
xt
Emp. Methoden (MA)/Blatt 1
– Page 4 of 8 –
Willi Mutschler
β1 ist somit eine Elastizität, d.h. das Verhältnis von zwei prozentualen Veränderungen. Der Regressionskoeffizient des Einkommens repräsentiert hier also die
marginale Konsumneigung, den Anteil des Einkommens, der für Konsum verwendet wird. Diese Größe muss natürlich im Bereich von 0 bis 1 liegen; ein Wert von
weit mehr als 1 lässt an der Korrektheit der Modell-Spezifikation zweifeln.
(d) Schätzen Sie nun eine erweiterte Konsumfunktion (i bezeichnet den Zins):
log(Ct ) = β0 + β1 log(Yt ) + β2 it + ut
(3)
Interpretieren Sie nun die Koeffizienten β0 , β1 und β2 . Macht dieses Ergebnis
ökonomisch Sinn?
Solution:
Variable
Coefficient
C
-0.012303
LOG(EK) 0.939532
Std. Error t-Statistic Prob.
0.088000
0.062972
-0.139808
14.91982
0.8892
0.0000
ZINS
-0.004897 0.001694
-2.890150 0.0050
Die Interpretation der Konstante macht hier immer noch keinen Sinn, jedoch liegt
durch Hinzunahme des Zinses die marginale Konsumneigung zwischen 0 und 1,
d.h. bei einem Prozent mehr Einkommen steigt der Konsum um 93.95%. β2 ist
eine Semi-elastizität: Steigt der Zins um einen Prozentpunkt, so sinkt der Konsum
um 0.4897%.
(e) Interpretieren Sie den Regressionsoutput soweit Sie können.
Solution: Siehe hierzu auch die Hinweise zum Regressionsoutput auf der Kurshomepage.
• t-Statistik und p-Wert
– Mithilfe der t-Statistik wird überprüft, ob der geschätzte Koeffizient
signifikant von 0 verschieden ist.
– Die Nullhypothese lautet H0 : βi = 0.
ˆ
(βi −0)
– Unter der Nullhypothese ist t = SE(
t-verteilt mit (n-k-1)-Freiheitsgraden,
βˆi )
die recht schnell gegen eine Standardnormalverteilung konvergiert.
– Aus der Statistik ist bekannt, dass man aus Verteilungen Wahrscheinlichkeiten mithilfe von kritischen Werten berechnen kann.
– Beispielsweise gilt für eine Std-Normalverteilte Variable Z ∼ N(0; 1),
dass Z mit 95%-iger Wahrscheinlichkeit zwischen -1.96 und 1.96 liegt:
P r(−1.96 ≤ Z ≤ 1.96) = 0.95.
– Die Fläche unter der Dichtefunktion links von -1.96 und rechts von 1.96
Emp. Methoden (MA)/Blatt 1
– Page 5 of 8 –
Willi Mutschler
beinhaltet also zusammen 5%. Dies wäre dann der p-Wert zum kritischen Wert ±1.96: p = 0.05.
– Diese Vorgehensweise überträgt man nun auf den t-Test:
ˆ
(βi −0)
– Ist die Nullhypothese wahr, so liegt der berechnete t-Wert t = SE(
βˆi )
mit 95%-iger Wahrscheinlichkeit zwischen ±1.96, da t unter H0 (asym-
ptotisch) Standard-Normalverteilt ist.
– Liegt der berechnete t-Wert außerhalb, also |t| > 1.96, so ist die Variable
t nicht Std-Normalverteilt, d.h. die Nullhypothese ist falsch und wird
auf einem Signifikanzniveau von α = 5% (Fehler 1. Art) abgelehnt.
– Mit anderen Worten: Für |t| > 1.96 ist βi signifikant von Null verschieden, der Regressor besitzt also Erklärungsgehalt im Model.
– Der Flächeninhalt der Dichtefunktion links und rechts vom berechneten
t ergibt den zugehörigen p-Wert.
– Grob: p ist die Wahrscheinlichkeit mit der die Nullhypothese stimmt.
– Somit lässt sich mit dem p-Wert ganz leicht die Testentscheidung fällen:
Ist p < 0.05 so lehne ich die Nullhypothese auf einem Signifikanzniveau
von 5% ab.
– Diese Vorgehensweise gilt für (fast) alle Tests.
– HIER: Bis auf das Interzept sind alle Koeffizienten statistisch signifikant
von Null verschieden, d.h. sowohl der Einfluss des logarithmierten verfügbaren Einkommens, als auch der Einfluss des Zinses sind statistisch
signifikant von Null verschieden.
• Das Bestimmtheitsmaß R2 und das adjustierte Bestimmtheitsmaß
R
2
– Das R2 misst wie gut das Modell
die
Streuung der Daten erklärt: R2 =
2
Pn
1
ESS
mit ESS = n−1
als Estimated-Sum-Squared (eri=1 Ŷi − Ȳ
T SS
2
P
n
1
klärte Varianz) und ESS = n−1
als Total-Sum-Squared
i=1 Yi − Ȳ
(Gesamtvarianz).
– Ein R2 = 1 bedeutet, dass die gesamte Streuung von Yi durch das
geschätzte Modell erklärt wird. Bei einem R2 = 0 hingegen wird die
Streuung nicht erklärt.
– Mit dem normalen R2 lassen sich streng genommen alternative ökonometrische Modelle nur bei gleicher Anzahl von Regressoren vergleichen.
– Mit dem adjustierten Bestimmtheitsmaß lassen sich Modell mit unterschiedlicher Anzahl von Regressoren besser miteinander vergleichen, da
eine Korrektur der Freiheitsgrade erfolgt.
Emp. Methoden (MA)/Blatt 1
– Page 6 of 8 –
Willi Mutschler
2
– HIER: Ein R2 von 0.951068 und ein R von 0.949798 sind fast schon zu
perfekte Werte für das Bestimmtheitsmaß. Man sollte bei solch einem
Wert immer suspekt sein, ob wirklich alle Annahmen des linearen Regressionsmodells zulässig sind. Insbesondere gilt bei Zeitreihen, dass die
Störterme autokorreliert sind (siehe Durbin-Watson-Statistik) und dies
führt u.a. zu einem derart hohen Bestimmtheitsmaß.
• S.E. of regression ist ein Schätzer für die Standardabweichung des Störterms.
• Sum squared resid ist die Residuenquadratsumme. Diese sollte nahe Null
sein.
• Log likelihood ist der Wert der in der Maximum-Likelihood verwendeten
Schätzfunktion. Dieser wird für diverese Tests gebraucht bzw. kann auch zur
Modellanpassung und -vergleich benutzt werden.
• F-Statistik
– Der standardmäßig ausgegebene F-Test testet die Nullhypothese H0 :
β1 = β2 = · · · = βk (Wichtig: NICHT die Konstante!) gegen H1 :
mindestens ein βi 6= 0.
– Der F-Test testet folglich mehrere Parameter gleichzeitig (im Vergleich
dazu testet der t-Test nur einzeln).
– HIER: Da die F-Statistik sehr hoch ist (F = 748.3136) und der p-Wert
Prob(F-Statistic)= 0, wird die Nullhypothese abgelehnt. Mit anderen
Worten: Das Modell an sich besitzt Erklärungsgehalt. Es gibt mindestens einen Koeffizient der von Null verschieden ist.
• Mean dependent var ist der Mittelwert der endogenen Variablen.
• S.D. dependent var ist die (korrigierte) Standardabweichung der endogenen Variablen.
• Akaike info criterion, Schwarz criterion und Hannan-Quinn criter.
– Dies sind die sogenannten Informationskriterien, die man zur Modellauswahl (insbesondere zur Lag-Bestimmung von ARMA Modellen verwendet).
– Die Idee ist es einen Ausgleich zwischen einer guten Anpassung und
einer sparsamen Modellierung zu erreichen.
– Je kleiner die Werte, desto besser (vorsicht vor Flüchtigkeitsfehlern bei
negativen Zahlen).
• Durbin-Watson stat
Emp. Methoden (MA)/Blatt 1
– Page 7 of 8 –
Willi Mutschler
– Der Durbin-Watson-Test überprüft die Nullhypothese, dass die Störgrößen unkorreliert sind (genauer: H0 : Die Autokorrelation erster Ordnung
ist 0) und ist somit ein Test zur Spezifikation des Modells.
– Bei positiver Autokorrelation kann man einen Wert zwischen 0 und 2
erwarten.
– Bei negativer Autokorrelation kann man einen Wert zwischen 2 und 4
erwarten.
– Liegt die Statistik nahe beim Wert 2, so gibt es keine wesentliche Autokorrelation der Störgrößen.
– HIER: Die DW-Statistik hat einen Wert von 0.229031. Die Störterme
scheinen also positiv autokorreliert zu sein, die Modellspezifikation ist
somit nicht korrekt.
(f) Analysieren Sie die Residuen des erweiterten Modells: (i) Berechnen Sie die üblichen deskriptiven Statistiken (Mittelwert, Standardabweichung, Schiefe) zur Beschreibung ihrer Verteilung; (ii) zeichnen Sie ein Histogramm und ein Q-Q-Plot
zur Beurteilung, ob die Residuen normalverteilt sind.
Solution: Es empfiehlt sich, die Residuen in einer neuen Variablen zu speichern:
Proc-Make Residual Series. Ansonsten findet man die Residuen der zuletzt durchgeführten Schätzung in der EViews-Variable RESID. Doppeltes Anklicken der
Residuen-Zeitreihe öffnet das Fenster mit dieser Zeitreihe. Anklicken der Schaltfläche View, dann Descriptive Statistics, dann Histogram and Stats liefert folgenden Output: Der Mittelwert hat praktisch den Wert Null; für Standardabweichung
und Schiefe ergeben sich 0.010501 und 0.142932. Dem relativ zur Standardabweichung der abhängigen Variablen (0.04747) kleinen Wert der Standardabweichung
entspricht der hohe Wert des Bestimmtheitsmaßes (0.95). Der Wert der Schiefe
nahe bei Null weist auf nur geringe Abweichungen von einer symmetrischen Verteilung der Residuen ab. Die Form des Histogramms ähnelt allerdings der Glockenform nur eingeschränkt. Auch das Q-Q-Plot weist auf Abweichungen von der
Normalverteilung hin: Das Q-Q-Plot ergibt sich durch Anklicken der Schaltfläche
View-Graph, dann Quantile - Quantile. Im Auswahlfenster ist Normal distribution zu markieren. Bei einer perfekten Normalverteilung der Residuen würden die
Punkte auf einer Geraden liegen.
(g) Zeichnen Sie (i) ein Streudiagramm der geschätzten Werte für den realen Konsum
über den wahren Werten. Zeichnen Sie (ii) ein Streudiagramm der Residuen über
dem realen Konsum. Interpretieren Sie den Wert des Bestimmtheitsmaßes der
angepassten Konsumfunktion.
Emp. Methoden (MA)/Blatt 1
– Page 8 of 8 –
Willi Mutschler
3.4
3.4
3.3
3.3
3.2
3.2
KONSUM
KONSUM
Solution:
3.1
3.1
3.0
3.0
2.9
2.9
2.8
2.8
2.9
3.0
3.1
3.2
KONSUMF
3.3
3.4
3.5
2.8
-.02
-.01
.00
.01
.02
.03
RESID01
Der hohe Wert des Bestimmtheitsmaßes spiegelt sich in der guten Übereinstimmung zwischen Beobachtungen und geschätzten Werten wider. Das Muster des
Residuen-Streudiagramms zeigt jedoch, dass zwischen den Residuen und der abhängigen Variablen eine deutliche funktionale Abhängigkeit besteht; die Residuen
sind keine zufälligen Größen, das Modell erklärt die abhängige Variable nur ungenügend. Ein hoher Wert des Bestimmtheitsmaßes genügt nicht, die Adäquatheit
des Modells zu zeigen!