Kurzeinführung in EViews Eine einfache Konsumfunktion
Transcription
Kurzeinführung in EViews Eine einfache Konsumfunktion
Empirische Methoden (MA) SS 2011 Übungsblatt 1 Willi Mutschler [email protected] Kurzeinführung in EViews 1. Starten Sie EViews und laden Sie das workfile Konsum.wf1“ (workfiles sind das von ” EViews benutzte Datenformat). Eine gute Kurzeinführung bietet Stanz, Richard (2007): EViews Illustrated for Version 6, Chapter I. Folgen Sie den Schritten des Kapitels, benutzen Sie jedoch die Zeitreihe PrivKonsum aus dem Datensatz Konsum.wf1. Machen Sie sich insbesondere mit folgenden Dingen vertraut: • Grafische Veranschaulichung und Übersichtsstatistiken • Veränderung des Beobachtungszeitraums • Erstellung von neuen Reihen und der Logarithmusfunktion • Scatterplots inkl. Regressionslinie • Einfache Regressionsanalyse: Regressionsoutput, (Grafische) Analyse der Residuen und Prognosen. • Organisation des Workspaces und Speichern Solution: Vgl. Stanz, Richard (2007): EViews Illustrated for Version 6, Chapter I. Eine einfache Konsumfunktion1 2. Eine einfache Konsumfunktion erklärt den Konsum als Funktion des Einkommens Ct = β0 + β1 Yt + ut (1) C bezeichnet den realen privaten Konsum und Y das reale verfügbare Einkommen. Diese soll in der folgenden Aufgabe geschätzt werden. Öffnen Sie dazu zunächst den Datensatz Konsum.wf1“ und betrachten Sie folgende Datensatzbeschreibung: ” • CPI: Quelle Deutsche Bundesbank: Consumer-Price-Index, Preisindex (2005=100), quarterly, seasonally adjusted. 1 Diese Aufgabe ist angelehnt an Hackl, Peter (2005): Einführung in die Ökonometrie. Emp. Methoden (MA)/Blatt 1 – Page 2 of 8 – Willi Mutschler • Priv Konsum: Quelle Deutsche Bundesbank: Consumer expenditures in Billion Euros (also in Mrd. Euro), quarterly, current prices, seasonally adjusted. • Verf EK: Quelle Deutsche Bundesbank: Disposable income in Billion Euros (also in Mrd. Euro), quarterly, current prices, seasonally adjusted. • Zins: Quelle Datastream: Long-Term government bond yield 9-10 Years, quarterly, interest rate. (a) Erstellen Sie nun zwei neue Zeitreihen für den realen privaten Konsum und das reale verfügbare Einkommen. (i) Betrachten Sie beide Zeitreihen als Liniendiagramm. (ii) Betrachten Sie beide Zeitreihen als Scatterplot. (iii) Wie hoch ist die Kovarianz und die Korrelation? (iv) Lässt sich ein Zusammenhang erkennen? Solution: series ek=verf ek/cpi; series konsum=priv konsum/cpi Durch Markieren von beiden Zeitreihen (Reihenfolge beachten: Einkommen auf die x-Achse, Konsum auf die y-Achse!), Rechtsklick, Open as Group werden die darzustellenden Zeitreihen in einem eigenen Fenster geöffnet. (i) Anklicken von View, dann Line Graph liefert das Liniendiagramm. (ii) Anklicken von View, dann Scatter liefert das Streudiagramm. 3.4 3.3 3.6 3.2 KONSUM 3.8 3.4 3.1 3.2 3.0 3.0 2.9 2.8 2.8 92 94 96 98 EK 00 02 04 KONSUM 06 08 10 3.2 3.3 3.4 3.5 3.6 3.7 3.8 EK Man erkennt den positiven Zusammenhang zwischen Konsum und Einkommen: steigt das Einkommen, wird mehr konsumiert. (iii) Die Analyse der Korrelation bestätigt diese Vermutung: Anklicken von View, Covariance Analysis und dann bei Covariance und Correlation ein Häkchen machen liefert die Kovarianz/Korrelationsmatrix. Die Kovarianz ist gleich 0.021282 und der Korrelationskoeffizienten hat einen Wert nahe bei Eins (0.972232). (iv) Alles deutet auf einen starken positiven linearen Zusammenhang hin. Emp. Methoden (MA)/Blatt 1 – Page 3 of 8 – Willi Mutschler (b) Führen Sie nun eine Schätzung von (1) durch und interpretieren Sie die Koeffizienten β0 und β1 . Solution: Variable Coefficient Std. Error t-Statistic Prob. C -0.291805 0.095048 -3.070071 0.0029 EK 0.973807 0.026541 36.69125 0.0000 βb0 = −0.291805 ist die Konstante bzw. der Achsenabschnitt. Wenn das reale verfügbare Einkommen Null beträgt, so beträgt der Konsum -0.291805 Mrd. Euro. Dies ist unsinnig. Die Konstante legt einfach nur ein Niveau fest. Oft ist eine Interpretation nicht möglich bzw. unsinnig. βb1 = 0.973807 ist der marginale Effekt des realen verfügbaren Einkommens. Wenn dieses um eine Einheit steigt, hier also um eine Mrd. Euro, dann steigt der Konsum um 0.973807 Mrd. Euro. (c) Schätzen Sie nun folgendes Modell: log(Ct ) = β0 + β1 log(Yt) + ut (2) Interpretieren Sie nun die Koeffizienten β0 und β1 . Macht dieses Ergebnis ökonomisch Sinn? Solution: Variable Coefficient Std. Error t-Statistic Prob. C -0.243854 0.038080 -6.403707 0.0000 0.029874 36.87903 0.0000 LOG(EK) 1.101739 Das Interzept βb0 = −0.243854 beschreibt, wie viel konsumiert würde, wenn das verfügbare Einkommen Null wäre. Der negative Wert ist natürlich nicht realistisch und ist ein Hinweis (i) auf mögliche Mängel in der Modell-Spezifikation und (ii) darauf, wie problematisch das Extrapolieren eines Modells in einen Bereich des Regressors ist, für den keine Beobachtungen verfügbar sind. Interpretation βb1 = 1.101739: Sowohl die endogene als auch die exogene Variable liegen in Logarithmen vor, d.h. hier ist eine Interpretation als Elastizität möglich, denn: log(yt) = β0 + β1 log(xt ) + ut ∆log(yt) = ∆log(yt) ∆log(xt ) = ∆yt ∆log(yt ) 1 ∆yt = ∆yt = ∆yt = ∆yt ∆yt yt yt ∆xt xt ∆log(yt) = β1 = ∆log(xt ) ∆yt yt ∆xt xt Emp. Methoden (MA)/Blatt 1 – Page 4 of 8 – Willi Mutschler β1 ist somit eine Elastizität, d.h. das Verhältnis von zwei prozentualen Veränderungen. Der Regressionskoeffizient des Einkommens repräsentiert hier also die marginale Konsumneigung, den Anteil des Einkommens, der für Konsum verwendet wird. Diese Größe muss natürlich im Bereich von 0 bis 1 liegen; ein Wert von weit mehr als 1 lässt an der Korrektheit der Modell-Spezifikation zweifeln. (d) Schätzen Sie nun eine erweiterte Konsumfunktion (i bezeichnet den Zins): log(Ct ) = β0 + β1 log(Yt ) + β2 it + ut (3) Interpretieren Sie nun die Koeffizienten β0 , β1 und β2 . Macht dieses Ergebnis ökonomisch Sinn? Solution: Variable Coefficient C -0.012303 LOG(EK) 0.939532 Std. Error t-Statistic Prob. 0.088000 0.062972 -0.139808 14.91982 0.8892 0.0000 ZINS -0.004897 0.001694 -2.890150 0.0050 Die Interpretation der Konstante macht hier immer noch keinen Sinn, jedoch liegt durch Hinzunahme des Zinses die marginale Konsumneigung zwischen 0 und 1, d.h. bei einem Prozent mehr Einkommen steigt der Konsum um 93.95%. β2 ist eine Semi-elastizität: Steigt der Zins um einen Prozentpunkt, so sinkt der Konsum um 0.4897%. (e) Interpretieren Sie den Regressionsoutput soweit Sie können. Solution: Siehe hierzu auch die Hinweise zum Regressionsoutput auf der Kurshomepage. • t-Statistik und p-Wert – Mithilfe der t-Statistik wird überprüft, ob der geschätzte Koeffizient signifikant von 0 verschieden ist. – Die Nullhypothese lautet H0 : βi = 0. ˆ (βi −0) – Unter der Nullhypothese ist t = SE( t-verteilt mit (n-k-1)-Freiheitsgraden, βˆi ) die recht schnell gegen eine Standardnormalverteilung konvergiert. – Aus der Statistik ist bekannt, dass man aus Verteilungen Wahrscheinlichkeiten mithilfe von kritischen Werten berechnen kann. – Beispielsweise gilt für eine Std-Normalverteilte Variable Z ∼ N(0; 1), dass Z mit 95%-iger Wahrscheinlichkeit zwischen -1.96 und 1.96 liegt: P r(−1.96 ≤ Z ≤ 1.96) = 0.95. – Die Fläche unter der Dichtefunktion links von -1.96 und rechts von 1.96 Emp. Methoden (MA)/Blatt 1 – Page 5 of 8 – Willi Mutschler beinhaltet also zusammen 5%. Dies wäre dann der p-Wert zum kritischen Wert ±1.96: p = 0.05. – Diese Vorgehensweise überträgt man nun auf den t-Test: ˆ (βi −0) – Ist die Nullhypothese wahr, so liegt der berechnete t-Wert t = SE( βˆi ) mit 95%-iger Wahrscheinlichkeit zwischen ±1.96, da t unter H0 (asym- ptotisch) Standard-Normalverteilt ist. – Liegt der berechnete t-Wert außerhalb, also |t| > 1.96, so ist die Variable t nicht Std-Normalverteilt, d.h. die Nullhypothese ist falsch und wird auf einem Signifikanzniveau von α = 5% (Fehler 1. Art) abgelehnt. – Mit anderen Worten: Für |t| > 1.96 ist βi signifikant von Null verschieden, der Regressor besitzt also Erklärungsgehalt im Model. – Der Flächeninhalt der Dichtefunktion links und rechts vom berechneten t ergibt den zugehörigen p-Wert. – Grob: p ist die Wahrscheinlichkeit mit der die Nullhypothese stimmt. – Somit lässt sich mit dem p-Wert ganz leicht die Testentscheidung fällen: Ist p < 0.05 so lehne ich die Nullhypothese auf einem Signifikanzniveau von 5% ab. – Diese Vorgehensweise gilt für (fast) alle Tests. – HIER: Bis auf das Interzept sind alle Koeffizienten statistisch signifikant von Null verschieden, d.h. sowohl der Einfluss des logarithmierten verfügbaren Einkommens, als auch der Einfluss des Zinses sind statistisch signifikant von Null verschieden. • Das Bestimmtheitsmaß R2 und das adjustierte Bestimmtheitsmaß R 2 – Das R2 misst wie gut das Modell die Streuung der Daten erklärt: R2 = 2 Pn 1 ESS mit ESS = n−1 als Estimated-Sum-Squared (eri=1 Ŷi − Ȳ T SS 2 P n 1 klärte Varianz) und ESS = n−1 als Total-Sum-Squared i=1 Yi − Ȳ (Gesamtvarianz). – Ein R2 = 1 bedeutet, dass die gesamte Streuung von Yi durch das geschätzte Modell erklärt wird. Bei einem R2 = 0 hingegen wird die Streuung nicht erklärt. – Mit dem normalen R2 lassen sich streng genommen alternative ökonometrische Modelle nur bei gleicher Anzahl von Regressoren vergleichen. – Mit dem adjustierten Bestimmtheitsmaß lassen sich Modell mit unterschiedlicher Anzahl von Regressoren besser miteinander vergleichen, da eine Korrektur der Freiheitsgrade erfolgt. Emp. Methoden (MA)/Blatt 1 – Page 6 of 8 – Willi Mutschler 2 – HIER: Ein R2 von 0.951068 und ein R von 0.949798 sind fast schon zu perfekte Werte für das Bestimmtheitsmaß. Man sollte bei solch einem Wert immer suspekt sein, ob wirklich alle Annahmen des linearen Regressionsmodells zulässig sind. Insbesondere gilt bei Zeitreihen, dass die Störterme autokorreliert sind (siehe Durbin-Watson-Statistik) und dies führt u.a. zu einem derart hohen Bestimmtheitsmaß. • S.E. of regression ist ein Schätzer für die Standardabweichung des Störterms. • Sum squared resid ist die Residuenquadratsumme. Diese sollte nahe Null sein. • Log likelihood ist der Wert der in der Maximum-Likelihood verwendeten Schätzfunktion. Dieser wird für diverese Tests gebraucht bzw. kann auch zur Modellanpassung und -vergleich benutzt werden. • F-Statistik – Der standardmäßig ausgegebene F-Test testet die Nullhypothese H0 : β1 = β2 = · · · = βk (Wichtig: NICHT die Konstante!) gegen H1 : mindestens ein βi 6= 0. – Der F-Test testet folglich mehrere Parameter gleichzeitig (im Vergleich dazu testet der t-Test nur einzeln). – HIER: Da die F-Statistik sehr hoch ist (F = 748.3136) und der p-Wert Prob(F-Statistic)= 0, wird die Nullhypothese abgelehnt. Mit anderen Worten: Das Modell an sich besitzt Erklärungsgehalt. Es gibt mindestens einen Koeffizient der von Null verschieden ist. • Mean dependent var ist der Mittelwert der endogenen Variablen. • S.D. dependent var ist die (korrigierte) Standardabweichung der endogenen Variablen. • Akaike info criterion, Schwarz criterion und Hannan-Quinn criter. – Dies sind die sogenannten Informationskriterien, die man zur Modellauswahl (insbesondere zur Lag-Bestimmung von ARMA Modellen verwendet). – Die Idee ist es einen Ausgleich zwischen einer guten Anpassung und einer sparsamen Modellierung zu erreichen. – Je kleiner die Werte, desto besser (vorsicht vor Flüchtigkeitsfehlern bei negativen Zahlen). • Durbin-Watson stat Emp. Methoden (MA)/Blatt 1 – Page 7 of 8 – Willi Mutschler – Der Durbin-Watson-Test überprüft die Nullhypothese, dass die Störgrößen unkorreliert sind (genauer: H0 : Die Autokorrelation erster Ordnung ist 0) und ist somit ein Test zur Spezifikation des Modells. – Bei positiver Autokorrelation kann man einen Wert zwischen 0 und 2 erwarten. – Bei negativer Autokorrelation kann man einen Wert zwischen 2 und 4 erwarten. – Liegt die Statistik nahe beim Wert 2, so gibt es keine wesentliche Autokorrelation der Störgrößen. – HIER: Die DW-Statistik hat einen Wert von 0.229031. Die Störterme scheinen also positiv autokorreliert zu sein, die Modellspezifikation ist somit nicht korrekt. (f) Analysieren Sie die Residuen des erweiterten Modells: (i) Berechnen Sie die üblichen deskriptiven Statistiken (Mittelwert, Standardabweichung, Schiefe) zur Beschreibung ihrer Verteilung; (ii) zeichnen Sie ein Histogramm und ein Q-Q-Plot zur Beurteilung, ob die Residuen normalverteilt sind. Solution: Es empfiehlt sich, die Residuen in einer neuen Variablen zu speichern: Proc-Make Residual Series. Ansonsten findet man die Residuen der zuletzt durchgeführten Schätzung in der EViews-Variable RESID. Doppeltes Anklicken der Residuen-Zeitreihe öffnet das Fenster mit dieser Zeitreihe. Anklicken der Schaltfläche View, dann Descriptive Statistics, dann Histogram and Stats liefert folgenden Output: Der Mittelwert hat praktisch den Wert Null; für Standardabweichung und Schiefe ergeben sich 0.010501 und 0.142932. Dem relativ zur Standardabweichung der abhängigen Variablen (0.04747) kleinen Wert der Standardabweichung entspricht der hohe Wert des Bestimmtheitsmaßes (0.95). Der Wert der Schiefe nahe bei Null weist auf nur geringe Abweichungen von einer symmetrischen Verteilung der Residuen ab. Die Form des Histogramms ähnelt allerdings der Glockenform nur eingeschränkt. Auch das Q-Q-Plot weist auf Abweichungen von der Normalverteilung hin: Das Q-Q-Plot ergibt sich durch Anklicken der Schaltfläche View-Graph, dann Quantile - Quantile. Im Auswahlfenster ist Normal distribution zu markieren. Bei einer perfekten Normalverteilung der Residuen würden die Punkte auf einer Geraden liegen. (g) Zeichnen Sie (i) ein Streudiagramm der geschätzten Werte für den realen Konsum über den wahren Werten. Zeichnen Sie (ii) ein Streudiagramm der Residuen über dem realen Konsum. Interpretieren Sie den Wert des Bestimmtheitsmaßes der angepassten Konsumfunktion. Emp. Methoden (MA)/Blatt 1 – Page 8 of 8 – Willi Mutschler 3.4 3.4 3.3 3.3 3.2 3.2 KONSUM KONSUM Solution: 3.1 3.1 3.0 3.0 2.9 2.9 2.8 2.8 2.9 3.0 3.1 3.2 KONSUMF 3.3 3.4 3.5 2.8 -.02 -.01 .00 .01 .02 .03 RESID01 Der hohe Wert des Bestimmtheitsmaßes spiegelt sich in der guten Übereinstimmung zwischen Beobachtungen und geschätzten Werten wider. Das Muster des Residuen-Streudiagramms zeigt jedoch, dass zwischen den Residuen und der abhängigen Variablen eine deutliche funktionale Abhängigkeit besteht; die Residuen sind keine zufälligen Größen, das Modell erklärt die abhängige Variable nur ungenügend. Ein hoher Wert des Bestimmtheitsmaßes genügt nicht, die Adäquatheit des Modells zu zeigen!