Stata Einführung

Transcription

Stata Einführung
Angela Hoffmann
SS 2009
Stata Einführung
für Version Stata 9.0
Übung zum Modul Quantitative Methoden der Agrarmarktanalyse
SS 2009
Einleitung:
Stata ist ein Statistikprogramm, das zur Analyse von Zeitreihen und Paneldaten, sowie zur
Datenearbeitung und graphischen Präsentation benutzt werden kann. Neben der Bedienung
über die Symbolleiste ermöglicht Stata die Befehlseingabe über Tastatur. Die folgenden
Kapitel enthalten deshalb immer Erläuterungen dazu, welche Schritte zur Aufgabenlösung
bei der Benutzung der Symbole erforderlich sind und am Ende den entsprechenden
Tastatur-Befehl (Command: ). In der Regel erscheint v.a. Stata-Neulingen die Verwendung
der Symbole einfacher, langfristig spart jedoch die Tastaturbedienung eine Menge Zeit und
viele Arbeitsschritte. Eine Übersicht aller Tastatur-Befehle, die im Rahmen der Übung
benutzt werden, ist in Kapitel 7.4 zu finden.
Inhaltsübersicht
1. Willkommen bei Stata ..................................................................................................2
1.1 Erstellen eines Datensatzes ..........................................................................................3
1.2 Öffnen einer bereits bestehenden Stata-Datei ..............................................................4
2. Datenbearbeitung mit Stata .........................................................................................4
2.1 Neue Variablen/ Datenreihen ........................................................................................4
2.2 Eingabe einzelner Daten ...............................................................................................5
2.3 Daten auswählen/ löschen ............................................................................................5
2.4 Daten sortieren .............................................................................................................6
3. Deskriptive Statistik .....................................................................................................6
4. Graphische Analyse.....................................................................................................7
4.1 Graphiktypen ................................................................................................................7
4.2 Graphik-Optionen..........................................................................................................8
5. Regressionsanalyse ....................................................................................................9
5.1 Schätzungen .................................................................................................................9
5.2 Teststatistiken zur ökonometrischen Interpretation .....................................................10
5.3 Zu den Annahmen des linearen Modells .....................................................................11
5.4 Testen linearer Restriktionen ......................................................................................12
6. Speichern und einfaches Programmieren ..................................................................13
6.1 Daten speichern ..........................................................................................................13
6.2 Graphiken speichern ...................................................................................................13
6.3 log-Dateien: Das Speichern der Ergebnisse................................................................13
6.4 Do-files: Einfache Programme erstellen und durchführen ...........................................13
7. Befehle ......................................................................................................................14
7.1 Syntax.........................................................................................................................14
7.2 Die Bedingungen if und in ...........................................................................................14
7.3 Das Befehls-Präfix by..................................................................................................14
7.4 Übersicht der wichtigsten Befehle (Commands) ............................................................14
1
Angela Hoffmann
SS 2009
1. Willkommen bei Stata
Stata Dateitypen
 Results: Fenster enthält alle Ergebnisse, Berechnungen, etc..
 Review: Auflistung aller durchgeführten Befehle. Auch Befehle, die über die Symbolleiste eingegeben wurden erscheinen als Kommando, können kopiert und in der
Kommandozeile weiterbearbeitet werden.
 Variables: Übersicht aller Variablen des Datensatzes.
 Command: Fenster zur Eingabe der Befehle über Tastatur („Kommandozeile“).
 Data editor: Zeigt den Datensatz und Variableninhalte. Diese können per Hand geändert werden. Zu erreichen über Data → Data editor
2
Angela Hoffmann
SS 2009
Stata Hilfe
Bei Fragen und Problemen ist Hilfe über die Menüleiste zu finden.
 Help → Contents oder Search...
 Wird bei Search ein gesuchtes „Keyword“ eingegeben, liefert Stata eine Auswahl an
Help-Kategorien, die den gesuchten Begriff enthalten.
 Command:
search TOPIC
 Command:
help TOPIC
Literaturhinweise zu Stata
 Juul, S. (2004): Introduction to Stata 8. Department of Epidemiology and Social
Medicine, University of Aarhus.
(http://www.cees.fudan.edu.cn/research/download/others-study_main_soft01.pdf
(01.04.2007))
 Kohler, U. und Kreuter, F. (2006): Datenanalyse mit Stata. Allgemeine Konzepte der
Datenanalyse und ihre praktische Anwendung. 2., vollständig überarbeitete und
ergänzte Auflage. R.Oldenburg Verlag, München.
 Chen, Y.-C. (2002): Introduction to Stata. Center for Social Science Computation &
Resaerch. University of Washington.
(http://julius.csscr.washington.edu/pdf/stata.pdf)
 http://www.Stata.com
1.1 Erstellen eines Datensatzes
Importieren einer Textdatei (.txt)
 File → Import → ASCII data created by a spreadsheet
 Browse… → Dateityp: Text file (.txt)
 Ordner, der die gesuchte Textdatei enthält, öffnen
 Textdatei aus Liste auswählen und doppelklicken (bzw. Button „Öffnen“ anklicken)
 Storage type → Use default, um die Datei nach dem Einlesen sofort zu bearbeiten
 Delimiter → automatically determine delimiter oder anderen Typ bestimmen → OK
 Command:
insheet using „x:\VName\QMM_Übung\Datensatz1.txt”
Hinweis zu Excel_Tabelle (.xls)
 Excel-Dateien können nicht ohne weiteres von Stata gelesen werden.
 Deshalb bietet es sich an, Excel-Dateien als Text-Dateien (*.txt oder *.csv) abzuspeichern und wie oben beschrieben mit Stata zu öffnen.
 Um eine Excel-Datei als Text-Datei zu speichern in Excel: Datei → Speichern unter
→ Dateityp: Text (Tabstopp-getrennt) (*.txt) bzw. CSV (Trennzeichen-getrennt) (*.csv)
 Gewünschten Dateinamen und Zielverzeichnis auswählen → Speichern
3
Angela Hoffmann
SS 2009
1.2 Öffnen einer bereits bestehenden Stata-Datei




File → Open
Ordner, der gewünschte Stata-Datei enthält auswählen.
Bestehende *.dta-Dateien aus Liste/ Ordner auswählen → Öffnen
Im Fenster Variables erscheinen die Variablen, im Reviewfenster erscheint entsprechender Tastaturbefehl.
 File → Open Recent
 Die zuletzt verwendeten/ bearbeiteten Dateien sind hier sofort aufrufbar.
 Command:
use „x:\VName\QMM_Übung\DATEN.dta“
 Command:
cd „x:\VName\QMM_Übung“
use DATEN.dta
2. Datenbearbeitung mit Stata
Um sich einen Überblick über die Daten zu verschaffen, bestehen zwei Möglichkeiten:
Entweder öffnet man über den Data editor den gesamten Datensatz, was eher unübersichtlich ist. Oder man lässt sich ausgewählte Datenbereiche anzeigen.
 Data → Data editor
 oder
 Data → Describe data → List data
 In „Variables“ → Variable eintragen oder aus Liste auswählen ((Liste über
angezeigt)) → OK
 Command:
browse VAR1-VAR3
 Command:
list VAR1 -VAR3
Hinweise: Missing values, d.h. fehlende Daten, werden von Stata als Punkt (.) gekennzeichnet. Erscheint in Resultfenster –more- wird die Liste durch ENTER fortgesetzt. Die Eingabe
von quit in der Command-Zeile beendet die Auflistung.
2.1 Neue Variablen/ Datenreihen
Erstellen einer neuen Variablen
 Data → create or change variables → create new variable
 In das Feld “New variable name:“ Namen der neuen Variablen eingeben und Inhalt
der Variablen, z.B. 0, in „Contents of new variable: (expression)“ eintragen.
 Command:
generate NEWVAR_1 = 0
 Command:
egen NEWVAR_2= mean(VAR)
4
Angela Hoffmann
SS 2009
Ändern der Inhalte einer Variablen
 Data → create or change variables → change new variable
 Command:
replace NEWVAR = 1 if VAR > 0
Variablen-Namen, -Label und Werte-Label
 Data → Variable utilities → Rename Variable → ...
 Command:
rename variable OLDNAME NEWNAME
 Data → Labels → Label Variable → ...
 Command:
label variable AHV “Anzahl der Mahlzeiten außer Haus pro Woche”
 Data → Labels → Label Values → Define or modify value labels → …
 Command:
label define VARLB 0 „Männer“ 1 „Frauen“, modify
label values VAR VARLB
2.2 Eingabe einzelner Daten
Die Möglichkeit einzelne Daten mit Hilfe folgender Kommandos zu verändern, darf beim
wissenschaftlichen Arbeiten nicht dazu genutzt werden, um Datensätze zur Korrektur der
Ergebnisse zu nutzen. Es empfiehlt sich bei jeder Änderung des Datensatzes diesen unter
neuem Namen abzuspeichern, um zu jeder Zeit Analyseschritte vollständig nachvollziehen
zu können.
 Data → Data editor
 In entsprechender Zelle Daten ändern → Eingabetaste
 Data editor schließen (Alt F4) → Accept Changes
 Command:
replace VAR = 400 in 12
2.3 Daten auswählen/ löschen
Sollen nur bestimmte Variablen zur Analyse verwendet werden, können diese ausgewählt,
bzw. andere Variablen gelöscht werden. Gleiches gilt für Beobachtungen, wenn z.B.
Analysen nur für einen bestimmten Zeitraum oder nur für bestimmte Personen durchgeführt
werden sollen.
Variablen auswählen/ löschen
 Data → Variable utilities → Keep or drop variables
 Entscheiden zwischen “Keep” (auswählen) oder “Drop” (löschen) → In „Variable to
keep:“ bzw. „Variable to drop“ → gewünschte Variablen eintragen → OK
 Command:
keep VAR
 Command:
drop VAR
Beobachtungen auswählen/ löschen
 Data → Variable utilities → Keep (Drop) observations
 entweder “if” → Bedingung formulieren, unter der Beobachtungen ausgewählt
(gelöscht) werden sollen → OK
 oder „Keep (Drop) a range of observation“ → Bereich der Beobachtungen auswählen,
die ausgewählt (gelöscht) werden sollen → OK
 Command:
keep if VAR == 1
 Command:
drop if VAR != 1
 Command:
keep in 1/30
 Command:
drop in 31/50
5
Angela Hoffmann
SS 2009
2.4 Daten sortieren
 Data → Sort → Ascending sort
 In „Variables:“ Variable(n) eintragen, nach der sortiert werden soll oder in Liste
auswählen (Liste über
angezeigt) → OK
 Werden z.B. zwei Variablen eingetragen, wird der Datensatz zuerst nach der ersten
angegebenen Variable aufsteigend sortiert; d.h. beginnend mit dem kleinsten Wert.
Die zweite Variable gibt an, nach welchem Kriterium die Beobachtungen innerhalb der
durch die erste Variable vorgegebenen Ordnung sortiert werden.
 Command:
sort VAR1 VAR2
 Soll der Datensatz absteigend (größter Wert zuerst) sortiert werden:
 Data → Sort → Ascending and descending sort
 In „Variables:“ Minuszeichen vor die Variable(n) eintragen, nach denen absteigend
sortiert werden soll.
 Command:
gsort -VAR1 VAR2
3. Deskriptive Statistik
Die Beschreibung der Daten gehört zu jeder vollständigen Analyse. Sie ermöglicht es, einen
ersten Eindruck der Daten zu erlangen. Beispielsweise sagen Median und Varianz etwas
über die Verteilung einzelner Variablen aus. Bei metrischen Daten zählt zur deskriptiven
(beschreibenden) Analyse die Bildung von Mittelwert, Median und ggf. Modus sowie Angabe
von Minimum, Maximum und Varianz bzw. Standardabweichung. Bei nominal und ordinal
skalierten Daten sind neben dem Stichprobenumfang und der Anzahl fehlender Werte
Häufigkeiten anzugeben.
Ausgabe der Lage- und Verteilungsparameter
 Statistics → Summaries, tables, & tests → Summary statistics → Summary statistics
 In das Feld “Variables”: Variable eintragen, für die Mittelwerte ausgegeben werden
sollen.
 Zur Ausgabe weiterer Parameter „Options“ → Display additional statistics → OK
 Command:
summarize VAR, detail
Häufigkeitsanalyse
 Statistics → Summaries, tables, & tests → Tables → One-way tables
 In “Categorical variable:” Variable eintragen bzw. aus Liste auswählen → OK
 Command:
tabulate VAR
6
Angela Hoffmann
SS 2009
4. Graphische Analyse
Graphiken werden genutzt, um „auf einen Blick“ Informationen über die Datenstruktur und
mögliche Zusammenhänge zu gewinnen. Damit sind sie Grundlage der Formulierung von
Hypothesen und Modellen.
4.1 Graphiktypen
Streudiagramm
 Graphics → Easy graphs → Scatter plot
 In “X variable:” und “Y variable” gewünschte Variablen eintragen → OK
 oder
 Graphics → Twoway graph (scatterplot, line, etc.)
 Bei “Plot type:” Scatter auswählen → In “X variable:” und “Y variable” gewünschte
Variablen eintragen → OK
 Command:
graph twoway (scatter hheinkommen ausgaben)
Histogramm
 Graphics → Easy graphs → Histogram
 “Main”: In “Variable:” Variable eintragen oder aus Liste auswählen → „Continuous
data“ oder „Discrete data“ anklicken
 „Options“: Bei „Y axis“ „Density“ oder „Frequency“ auswählen → OK
 oder
 Graphics → Histogram
 In “Variable:” Variable eintragen → OK
 Command:
graph twoway (histogram hhgre)
(Zur weiteren Gestaltung eines Histogramms und entsprechende Abbildung unter Punkt 5.2.)
7
Angela Hoffmann
SS 2009
Box-Plots
 Graphics → Easy graphs → Box plot
 “Main”: In “Variable:” Variable eintragen oder aus Liste auswählen → OK
 Graphics → Box plot → ….
 Command:
graph box ausgaben
4.2 Graphik-Optionen
Anhand einiger Beispiele werden ausgewählte Befehls-Optionen zur Gestaltung einer StataGraphik erläutert. Die vorgestellten Optionen gelten im Allgemeinen für alle Graphiktypen.
Zur benutzerdefinierten Achsenbeschriftung dient die Option ,xlabel (0(1000)4000) bzw. ylabel
(Beachtet werden muss, dass nur die erste Option mit einem Komma eingeleitet wird!). In
der Klammer steht zuerst der Startwert der Beschriftung [,xlabel (0(1000)4000)], in der inneren
Klammer folgt die Schrittweite [,xlabel (0(1000)4000)] und nach der Klammer folgt der Endwert
der Beschriftung [ ,xlabel (0(1000)4000)].
 Command:
twoway (scatter ausgaben hheinkommen) (lfit ausgaben hheinkommen),
xlabel(0(1000)4000 ytitle(„Ausgaben für AHV“ „in Euro“) ylabel(0(5)30)
Die Graphik zeigt außerdem, wie zwei twoway-Graphiken überlagert werden können; scatter
und lfit. Welche Hypothesen über den Zusammenhang zwischen dem Einkommen und den
Ausgaben lassen sich ableiten?
Alternativ können mit der Option ,xlabel Werte in der Beschriftung durch Wörter ersetzt
werden. Dazu folgt innerhalb der Klammer der Zahl, die ersetzt werden soll, in
Anführungszeichen der gewünschte Begriff [(0 „Mann“ 1 „Frau“)].
 Command:
histogram geschlecht, frequency discrete
ytitle(„Absolute Häufigkeiten“) xlabel(0 „Mann“ 1 „Frau“)
gap(50)
title(Histogramm)
 Command:
histogram geschlecht, frequency discrete gap(50) title(„Histogramm
(color(black)“) ytitle(„Absolute Häufigkeiten“) xlabel(0 „Mann“ 1 „Frau“) color(black)
8
Angela Hoffmann
SS 2009
Die weiteren Befehls-Optionen bedeuten:
 frequency → Ausgabe abs. Häufigkeiten statt Wahrscheinlichkeiten (Dichte).
 discrete → positioniert die Balken mittig über Werten.
 gap(50) → bestimmt den Abstand der Balken zwischen den zugehörigen Werten in %,
d.h. 0<WERT<100.
 title(Histogramm) → fügt eine Überschrift in die Graphik ein.
 ytitle(„Absolute Häufigkeiten“) → fügt einen Achsentitel ein (Stata würde automatisch
„Frequency“ ausgeben).
 color(black) → bestimmt die Farbe der Balken.
Detaillierte Erläuterungen zur Erstellung und Gestaltung von Graphiken sowie eine Auflistung
aller Graphiktypen können der Stata-Hilfe entnommen werden (Command: help graph (graph
intro)).
5. Regressionsanalyse
Nach der Vorabanalyse (graphisch und deskriptiv) kann mit der eigentlichen Regression
begonnen werden. Hierzu wird ein Modell formuliert und anschließend anhand der Daten
geschätzt. Die Ergebnisse dieser Schätzung werden dann ökonometrisch interpretiert.
5.1 Schätzungen
Das Modell bei einer linearen Regression (OLS = ordinary least squares) enthält immer eine
endogene (erklärte oder abhängige) Variable und mindestens eine exogene (erklärende oder
unabhängige) Variable. Eine mögliche Fragestellung lautet beispielsweise, hängen die Ausgaben für den Außerhausverzehr (ausgaben) von der Haushaltsgröße (hhgre) und/ oder dem
Haushaltseinkommen (hheinkommen) ab. Das zugehörige Modell lautet:
ausgaben = β0 + β1 * hhgre + β2 * hheinkommen + u.
 Statistics → Linear models and related → Linear regression
 Endogene Variable in “Dependent variable:” eintragen → OK
 Exogene Variable(n) in „Independent variables:“ eintragen. Bei mehreren Variablen
einfach durch Leerzeichen getrennt die Variablen auflisten.
9
Angela Hoffmann
SS 2009
 Wichtig: Stata fügt automatisch eine Konstante in die Regression ein (im Output:
_const). Soll dies nicht geschehen unter „Treatment of constant“ → Supress constant
term
 Command:
regress ausgaben hhgre hheinkommen
 Wichtig: Auch hier muss die Konstante nicht extra aufgeführt werden. Stata erkennt
automatisch die erste Variable nach dem Befehl regress als endogene, alle nachfolgenden als exogene Variable.
5.2 Teststatistiken zur ökonometrischen Interpretation
Die Güte des Modells
 Number of obs:
 F( 2, 25):
 Prob > F
 R-squared:
 Adj R-squared:
 Root MSE:
Schätzergebnisse
 ausgaben:
 hhgre, hheinkommen:
 _const:
 Coef.:
 Std. Err.:
 t:
 P > I t I:
 [95% Conf. Intervall]:
Anova-Block
 Source:
 ModelSS:
 ResidualSS:
 TotalSS:
 SS:
 df:
 MS:
Zahl der Beobachtungen
empirischer F-Wert zur Überprüfung der Gesamtsignifikanz des Modells
Wahrscheinlichkeit, dass alle Parameter βi in GG Null
sind.
Bestimmtheitsmaß R²
korrigiertes R²
Wurzel der mittleren Abweichungsquadrate des Modells
aus dem Anova-Block
endogene Variable
exogene Variable
Konstante
geschätzte Parameter
Standardfehler
empirischer t-Wert (Coef./ Std. Err.)
Wahrscheinlichkeit, dass Nullhypothese (βi=0) zutrifft.
Bereich, der in 95 von 100 Fällen den tatsächlichen Wert
des Parameters einschließt.
erklärte Streuung (MSS)
nicht erklärte Streuung (RSS)
Gesamtstreuung (TSS = MSS + RSS)
Summe der quadrierten Abweichungen (Sum of Squares)
Freiheitsgrade
mittlere Abweichungsquadrate (MS = SS/df)
10
Angela Hoffmann
SS 2009
5.3 Zu den Annahmen des linearen Modells
Um zu prüfen, ob die Annahmen zur OLS-Schätzung gelten, ist es zuerst notwendig, die
geschätzten Fehler als Variable zu generieren. Am einfachsten geschieht dies NACH der
Regression durch:
 Command:
predict RESIDUEN, resid
Test auf Normalverteilung
 Command:
sktest RESIDUEN
Residual-vs.-Fitted-Plot
Diese Graphik wird betrachtet, um abzuschätzen, ob Erwartungswert der Residuen im Mittel
Null ist. Diese Annahme gilt für die gesamte Stichprobe per Definition, muss jedoch auch
lokal gelten. Des Weiteren kann der Plot Hinweise darauf liefern, ob Homoskedastizität oder
Autokorrelation vorliegen. In der Graphik soll KEIN funktionaler Zusammenhang zwischen
den Residuen und den Fitted-Values (d.h. den geschätzten endogenen Variablen) zu
erkennen sein.
 Graphics → Regression diagnostic plots → Residual-versus-fitted → OK
 Command:
rvfplot, yline(0) title(„RvF-Plot“ „gespeichert im Format *.wmf“)
-10
-5
Residuals
0
5
10
15
RvF-Plot
gespeichert im Format *.wmf
11.6
11.8
12
12.2
Fitted values
12.4
12.6
Weitere Funktionen zur Validierung der Regressionsergebnisse unter
 Command:
help regress postestimation
Autokorrelation
 Durbin-Watson-Test zum Test auf Autokorrelation 1. Ordnung
 Command:
estat dwatson
 Breusch-Godfrey-Test zum Test auf Autokorrelation n-ter Ordnung
 Command:
estat bgodfrey, lag(1/5)
 Hinweis: Stata führt Tests auf Autokorrelation nur durch, wenn der Datensatz als
Zeitreihe definiert wurde (siehe help tsset).
Heteroskedastizität
 Command:
estat hettest VAR
Mulikollinearität
 VIF (Variance-Inflation-Factor) testet anhand des Anwachsen des R², ob zusätzliche
Variablen einen Sinn ergeben.
 Command:
estat vif
11
Angela Hoffmann
SS 2009
5.4 Testen linearer Restriktionen
In vielen Fällen soll neben der statistischen Signifikanz auch eine Aussage darüber gemacht
werden, ob bestimmte Annahmen für die Parameter gelten. Es ist beispielsweise bei der
Modellierung der Arbeitsnachfrage mit Hilfe der Cobb-Douglas-Funktion nicht nur
entscheidend, dass α und β signifikant von Null verschieden sind, sondern auch, ob die
Restriktion [α + β = 1] gilt. Dazu wird nach der Regression die zu überprüfende Restriktion
(Hypothese) mit folgendem Befehl anhand einer F-Statistik getestet:
 Command:
test (α + β =1)
12
Angela Hoffmann
SS 2009
6. Speichern und einfaches Programmieren
6.1 Daten speichern




File → Save oder Save as... →
Alten Datensatz überschreiben (empfiehlt sich im Allgemeinen nicht!)
oder
Daten unter neuem Namen (z.B. DATENNEU) im Format *.dta speichern → OK
 Command:
save „x:\Vname\QMM_Übung\DATENALT.dta, replace
 Command:
save „x:\Vname\QMM_Übung\DATENNEU.dta
6.2 Graphiken speichern
Die Formate Windows Metafile(*.wmf) (vgl. Kapitel 6.3) und Windows Enhanced Metafile
(*.emf) sind zu empfehlen, wenn die Graphiken unter Windows z.B. in WORD-Dateien
verwendet werden sollen. Bei der Arbeit mit LATEX sollten die Formate PostScript (*.ps)
oder Encapsulated PostScript (*.eps) gewählt werden.
File → Save Graph... →
Zielverzeichnis, Dateinamen und Dateityp auswählen → OK
 Command:
graph export „x:\Vname\QMM_Übung\GRAPHIK.wmf“
6.3 log-Dateien: Das Speichern der Ergebnisse
Bei log-Dateien (Stata log files) handelt es sich um reine Textdateien im Format .log bzw.
.smcl (formatted log file). Sie enthalten alle verwendeten Befehle einer laufenden
Anwendung und deren zugehörige Ergebnisse (Outputs/ Results). D.h. einmal angelegt,
dokumentieren sie jeden durchgeführten Anwendungsschritt, solange sie nicht wieder
geschlossen werden. Bei Datenanalysen sollten auf jeden Fall log-Dateien angelegt werden,
denn nur so kann später auf bereits gewonnene Ergebnisse zugegriffen werden und jeder
Analyseschritt nachvollzogen werden.
Anlegen eines log-file
 File → Log → Begin... →
 Zielverzeichnis auswählen → In „Dateiname:“ DOKUMENTATION eintragen →
„Dateityp:“ log auswählen → OK
 Command:
log using „x:\Vname\QMM_Übung\DOKUMENTATION.log“
Schließen des log-file
 File → Log →Close... → ENTER
 Command:
log close
6.4 Do-files: Einfache Programme erstellen und durchführen
In Do-files werden Kommando-Sequenzen eingegeben und kommentiert. So ist es
besonders einfach, bestimmte Analyseschritte mehrmals zu wiederholen und im Nachhinein
nachzuvollziehen.
Anlegen und Bearbeiten eines Do-files
 File → Do… →
 Zielverzeichnis auswählen → In „Dateiname:“ PROGRAMM eintragen → „Dateityp:“
do auswählen → OK
 Befehle eintragen, Kommentare durch // bzw. /// einleiten, Überschriften einfügen und
durch * kennzeichnen:
13
Angela Hoffmann
SS 2009
*Deskriptive Statistik
use „x:\Vname\QMM_Übung\AHV.dta“ // Datensatz öffnen
tab geschlecht /// Häufigkeiten
Hinweis: Wenn die Kommentare weniger als 75 Zeichen enthalten genügt der „//“
ansonsten bitte „///“ verwenden. Keine Zeilenumbrüche einfügen, da dies von Stata als
Beginn eines neuen Befehls verstanden wird.
 Command: cmdlog using „x:\Vname\QMM_Übung\PROGRAMM.do”
Durchführen eines Do-files
 File → Do… →
 Zielverzeichnis auswählen → Do-files auswählen → Doppelklicken
 Command:
do „x:\\Vname\QMM_Übung\PROGRAMM.do“
7. Befehle
7.1 Syntax
Bei der Eingabe der Befehle über die Kommando-Zeile muss folgende Syntax beachtet
werden. Für Graphiken sind einige Besonderheiten wegen der verschiedenen Plots, d.h.
Graphiktypen zu beachten.
[Präfix:] Command [Variablenliste] [if Bedingung] [in Bereich] [Gewicht] [, Optionen]
Graph-Command (Plot-Command, Plot Options) (Plot-Command, Plot-Options) [, Graph-Optionen]
7.2 Die Bedingungen if und in
if
Der Befehl if wird verwendet, wenn nur ein Teil des Datensatzes (z.B. ein bestimmter Zeitraum oder Singlehaushalte) bei der Analyse berücksichtigt werden soll.
 Gleichheit if VAR == Wert
 Ungleichheit if VAR ~= Wert oder if VAR != Wert
 Größer- bzw. Kleiner-Verknüpfungen: >, >=, <, <=
in
Der Befehl in wird benutzt, um nur bestimmte Bereiche des Datensatzes zu berücksichtigen.
7.3 Das Befehls-Präfix by
Ein Befehls-Präfix geht dem eigentlichen Befehl voran und kann nicht allein stehen. Durch
das Präfix by wird der Datensatz in Kategorien unterteilt, für die der nachfolgende Befehl
separat durchgeführt wird. D.h. by kann beispielsweise benutzt werden, um die Mittelwerte
des Einkommens von Männer und Frauen mit nur einem Kommando zu berechnen.
Wichtig: Um das Präfix zu verwenden muss der Datensatz immer zuerst nach der Variable,
die die Kategorien vorgibt, sortiert werden; in unserem Beispiel also nach dem Geschlecht.
 Command:
sort geschlecht
by geschlecht: sum hheinkommen
 Command:
bysort geschlecht: sum hheinkommen
7.4 Übersicht der wichtigsten Befehle (Commands)
Die nachfolgende Tabelle enthält alle in dieser Einführung vorgestellten Befehle. Fett
unterlegt sind die empfohlenen Verkürzungen. Diese sind so gestaltet, dass bei möglichst
geringer Schreibarbeit die Erkennung der Befehle möglichst einfach bleibt. Ebenso wie bei
den Befehlen können Variablen soweit verkürzt werden, dass sie gerade noch erkannt
werden. D.h. sollte der Datensatz lediglich aus den Variablen Nummer, Geschlecht und
14
Angela Hoffmann
SS 2009
Einkommen bestehen, genügt die Unterscheidung N, G, E. Jedoch ist bei der VariablenVerkürzung besondere Vorsicht geboten, damit die Analyse im Nachhinein auch für andere
nachvollziehbar bleibt.
Ein weiterer wichtiger Hinweis zur Arbeitserleichterung: Wenn dem Befehl keine Variable/
Variablenliste folgt, führt Stata den Befehl automatisch für alle Variablen durch.
Command
browse
cd
clear
cmdlog using
describe*
Do
drop
Egen
estat bgoldfrey
estat dwatson
estat hettest
estat vif
generate
graph box
graph export
graph twoway histogram
graph twoway lfit
graph twoway scatter
gsort
help
insheet using
keep
label define
label values
list
log close
log using
outsheet using
predict
quit
regress
rename variable
replace
rvfplot
save
search
sktest
sort
summarize
tabulate
test
tsset
use
Beschreibung
Anzeigen des Data-Editors (Änderungen nicht möglich)
Wechseln des Verzeichnisses
Löschen
Erstellen eines Do-files
Beschreibung von Datensätzen
Durchführen eines Do-files
Daten löschen
Erstellen einer neuer Variablen (nachfolgend Funktion)
Test auf Autokorrelation n-ter Ordnung
Test auf Autokorrelation 1. Ordnung
Test auf Heteroskedastizät
Test auf Multikollonearität
Erstellen einer neuer Variablen
Erstellen eines Box-Plots
Speichern von Graphiken
Erstellen eines Histogramms
Erstellen einer Regressionsgrade
Erstellen eines Streudiagramms
Sortieren (auf- und absteigend)
Aufruf der Online-Hilfe
Importieren von Datensätzen im Format .txt
Daten auswählen
Erstellen einer Labelvorschrift
Zuornen einer Labelvorschrift
Auflistung der Daten
Schließen eines Log-files
Öffnen eines Log-files
Daten exportieren
Errechnung der Residuen einer Regression
Beendung von Auflistungen bei -morelineare Regression
Umbennen einer Variable
Ersetzen von Daten, Variablen
Residuals-vs-Fitted-Plot
Speichern von Daten
Suchen
Test auf Normalverteilung
Daten sortieren
Mittelwerte, etc.
Häufigkeitstabellen
Test linearer Restriktionen
Variable als Zeitreihe definieren
Laden von Datensätzen im Format .dta
* fett unterlegt sind die empfohlenen Verkürzungen der Kommandos. Diese stimmen nicht immer mit
der maximal möglichen Verkürzung der Befehle überein. Die maximale Verkürzung ist in der StataOnline-Hilfe durch Unterstreichung gekennzeichnet.
Kritische Anmerkungen und Verbesserungsvorschläge zu dieser Einführung werden gerne
angenommen ([email protected]).
Vielen Erfolg und Freude mit Stata!
15