Stata Einführung
Transcription
Stata Einführung
Angela Hoffmann SS 2009 Stata Einführung für Version Stata 9.0 Übung zum Modul Quantitative Methoden der Agrarmarktanalyse SS 2009 Einleitung: Stata ist ein Statistikprogramm, das zur Analyse von Zeitreihen und Paneldaten, sowie zur Datenearbeitung und graphischen Präsentation benutzt werden kann. Neben der Bedienung über die Symbolleiste ermöglicht Stata die Befehlseingabe über Tastatur. Die folgenden Kapitel enthalten deshalb immer Erläuterungen dazu, welche Schritte zur Aufgabenlösung bei der Benutzung der Symbole erforderlich sind und am Ende den entsprechenden Tastatur-Befehl (Command: ). In der Regel erscheint v.a. Stata-Neulingen die Verwendung der Symbole einfacher, langfristig spart jedoch die Tastaturbedienung eine Menge Zeit und viele Arbeitsschritte. Eine Übersicht aller Tastatur-Befehle, die im Rahmen der Übung benutzt werden, ist in Kapitel 7.4 zu finden. Inhaltsübersicht 1. Willkommen bei Stata ..................................................................................................2 1.1 Erstellen eines Datensatzes ..........................................................................................3 1.2 Öffnen einer bereits bestehenden Stata-Datei ..............................................................4 2. Datenbearbeitung mit Stata .........................................................................................4 2.1 Neue Variablen/ Datenreihen ........................................................................................4 2.2 Eingabe einzelner Daten ...............................................................................................5 2.3 Daten auswählen/ löschen ............................................................................................5 2.4 Daten sortieren .............................................................................................................6 3. Deskriptive Statistik .....................................................................................................6 4. Graphische Analyse.....................................................................................................7 4.1 Graphiktypen ................................................................................................................7 4.2 Graphik-Optionen..........................................................................................................8 5. Regressionsanalyse ....................................................................................................9 5.1 Schätzungen .................................................................................................................9 5.2 Teststatistiken zur ökonometrischen Interpretation .....................................................10 5.3 Zu den Annahmen des linearen Modells .....................................................................11 5.4 Testen linearer Restriktionen ......................................................................................12 6. Speichern und einfaches Programmieren ..................................................................13 6.1 Daten speichern ..........................................................................................................13 6.2 Graphiken speichern ...................................................................................................13 6.3 log-Dateien: Das Speichern der Ergebnisse................................................................13 6.4 Do-files: Einfache Programme erstellen und durchführen ...........................................13 7. Befehle ......................................................................................................................14 7.1 Syntax.........................................................................................................................14 7.2 Die Bedingungen if und in ...........................................................................................14 7.3 Das Befehls-Präfix by..................................................................................................14 7.4 Übersicht der wichtigsten Befehle (Commands) ............................................................14 1 Angela Hoffmann SS 2009 1. Willkommen bei Stata Stata Dateitypen Results: Fenster enthält alle Ergebnisse, Berechnungen, etc.. Review: Auflistung aller durchgeführten Befehle. Auch Befehle, die über die Symbolleiste eingegeben wurden erscheinen als Kommando, können kopiert und in der Kommandozeile weiterbearbeitet werden. Variables: Übersicht aller Variablen des Datensatzes. Command: Fenster zur Eingabe der Befehle über Tastatur („Kommandozeile“). Data editor: Zeigt den Datensatz und Variableninhalte. Diese können per Hand geändert werden. Zu erreichen über Data → Data editor 2 Angela Hoffmann SS 2009 Stata Hilfe Bei Fragen und Problemen ist Hilfe über die Menüleiste zu finden. Help → Contents oder Search... Wird bei Search ein gesuchtes „Keyword“ eingegeben, liefert Stata eine Auswahl an Help-Kategorien, die den gesuchten Begriff enthalten. Command: search TOPIC Command: help TOPIC Literaturhinweise zu Stata Juul, S. (2004): Introduction to Stata 8. Department of Epidemiology and Social Medicine, University of Aarhus. (http://www.cees.fudan.edu.cn/research/download/others-study_main_soft01.pdf (01.04.2007)) Kohler, U. und Kreuter, F. (2006): Datenanalyse mit Stata. Allgemeine Konzepte der Datenanalyse und ihre praktische Anwendung. 2., vollständig überarbeitete und ergänzte Auflage. R.Oldenburg Verlag, München. Chen, Y.-C. (2002): Introduction to Stata. Center for Social Science Computation & Resaerch. University of Washington. (http://julius.csscr.washington.edu/pdf/stata.pdf) http://www.Stata.com 1.1 Erstellen eines Datensatzes Importieren einer Textdatei (.txt) File → Import → ASCII data created by a spreadsheet Browse… → Dateityp: Text file (.txt) Ordner, der die gesuchte Textdatei enthält, öffnen Textdatei aus Liste auswählen und doppelklicken (bzw. Button „Öffnen“ anklicken) Storage type → Use default, um die Datei nach dem Einlesen sofort zu bearbeiten Delimiter → automatically determine delimiter oder anderen Typ bestimmen → OK Command: insheet using „x:\VName\QMM_Übung\Datensatz1.txt” Hinweis zu Excel_Tabelle (.xls) Excel-Dateien können nicht ohne weiteres von Stata gelesen werden. Deshalb bietet es sich an, Excel-Dateien als Text-Dateien (*.txt oder *.csv) abzuspeichern und wie oben beschrieben mit Stata zu öffnen. Um eine Excel-Datei als Text-Datei zu speichern in Excel: Datei → Speichern unter → Dateityp: Text (Tabstopp-getrennt) (*.txt) bzw. CSV (Trennzeichen-getrennt) (*.csv) Gewünschten Dateinamen und Zielverzeichnis auswählen → Speichern 3 Angela Hoffmann SS 2009 1.2 Öffnen einer bereits bestehenden Stata-Datei File → Open Ordner, der gewünschte Stata-Datei enthält auswählen. Bestehende *.dta-Dateien aus Liste/ Ordner auswählen → Öffnen Im Fenster Variables erscheinen die Variablen, im Reviewfenster erscheint entsprechender Tastaturbefehl. File → Open Recent Die zuletzt verwendeten/ bearbeiteten Dateien sind hier sofort aufrufbar. Command: use „x:\VName\QMM_Übung\DATEN.dta“ Command: cd „x:\VName\QMM_Übung“ use DATEN.dta 2. Datenbearbeitung mit Stata Um sich einen Überblick über die Daten zu verschaffen, bestehen zwei Möglichkeiten: Entweder öffnet man über den Data editor den gesamten Datensatz, was eher unübersichtlich ist. Oder man lässt sich ausgewählte Datenbereiche anzeigen. Data → Data editor oder Data → Describe data → List data In „Variables“ → Variable eintragen oder aus Liste auswählen ((Liste über angezeigt)) → OK Command: browse VAR1-VAR3 Command: list VAR1 -VAR3 Hinweise: Missing values, d.h. fehlende Daten, werden von Stata als Punkt (.) gekennzeichnet. Erscheint in Resultfenster –more- wird die Liste durch ENTER fortgesetzt. Die Eingabe von quit in der Command-Zeile beendet die Auflistung. 2.1 Neue Variablen/ Datenreihen Erstellen einer neuen Variablen Data → create or change variables → create new variable In das Feld “New variable name:“ Namen der neuen Variablen eingeben und Inhalt der Variablen, z.B. 0, in „Contents of new variable: (expression)“ eintragen. Command: generate NEWVAR_1 = 0 Command: egen NEWVAR_2= mean(VAR) 4 Angela Hoffmann SS 2009 Ändern der Inhalte einer Variablen Data → create or change variables → change new variable Command: replace NEWVAR = 1 if VAR > 0 Variablen-Namen, -Label und Werte-Label Data → Variable utilities → Rename Variable → ... Command: rename variable OLDNAME NEWNAME Data → Labels → Label Variable → ... Command: label variable AHV “Anzahl der Mahlzeiten außer Haus pro Woche” Data → Labels → Label Values → Define or modify value labels → … Command: label define VARLB 0 „Männer“ 1 „Frauen“, modify label values VAR VARLB 2.2 Eingabe einzelner Daten Die Möglichkeit einzelne Daten mit Hilfe folgender Kommandos zu verändern, darf beim wissenschaftlichen Arbeiten nicht dazu genutzt werden, um Datensätze zur Korrektur der Ergebnisse zu nutzen. Es empfiehlt sich bei jeder Änderung des Datensatzes diesen unter neuem Namen abzuspeichern, um zu jeder Zeit Analyseschritte vollständig nachvollziehen zu können. Data → Data editor In entsprechender Zelle Daten ändern → Eingabetaste Data editor schließen (Alt F4) → Accept Changes Command: replace VAR = 400 in 12 2.3 Daten auswählen/ löschen Sollen nur bestimmte Variablen zur Analyse verwendet werden, können diese ausgewählt, bzw. andere Variablen gelöscht werden. Gleiches gilt für Beobachtungen, wenn z.B. Analysen nur für einen bestimmten Zeitraum oder nur für bestimmte Personen durchgeführt werden sollen. Variablen auswählen/ löschen Data → Variable utilities → Keep or drop variables Entscheiden zwischen “Keep” (auswählen) oder “Drop” (löschen) → In „Variable to keep:“ bzw. „Variable to drop“ → gewünschte Variablen eintragen → OK Command: keep VAR Command: drop VAR Beobachtungen auswählen/ löschen Data → Variable utilities → Keep (Drop) observations entweder “if” → Bedingung formulieren, unter der Beobachtungen ausgewählt (gelöscht) werden sollen → OK oder „Keep (Drop) a range of observation“ → Bereich der Beobachtungen auswählen, die ausgewählt (gelöscht) werden sollen → OK Command: keep if VAR == 1 Command: drop if VAR != 1 Command: keep in 1/30 Command: drop in 31/50 5 Angela Hoffmann SS 2009 2.4 Daten sortieren Data → Sort → Ascending sort In „Variables:“ Variable(n) eintragen, nach der sortiert werden soll oder in Liste auswählen (Liste über angezeigt) → OK Werden z.B. zwei Variablen eingetragen, wird der Datensatz zuerst nach der ersten angegebenen Variable aufsteigend sortiert; d.h. beginnend mit dem kleinsten Wert. Die zweite Variable gibt an, nach welchem Kriterium die Beobachtungen innerhalb der durch die erste Variable vorgegebenen Ordnung sortiert werden. Command: sort VAR1 VAR2 Soll der Datensatz absteigend (größter Wert zuerst) sortiert werden: Data → Sort → Ascending and descending sort In „Variables:“ Minuszeichen vor die Variable(n) eintragen, nach denen absteigend sortiert werden soll. Command: gsort -VAR1 VAR2 3. Deskriptive Statistik Die Beschreibung der Daten gehört zu jeder vollständigen Analyse. Sie ermöglicht es, einen ersten Eindruck der Daten zu erlangen. Beispielsweise sagen Median und Varianz etwas über die Verteilung einzelner Variablen aus. Bei metrischen Daten zählt zur deskriptiven (beschreibenden) Analyse die Bildung von Mittelwert, Median und ggf. Modus sowie Angabe von Minimum, Maximum und Varianz bzw. Standardabweichung. Bei nominal und ordinal skalierten Daten sind neben dem Stichprobenumfang und der Anzahl fehlender Werte Häufigkeiten anzugeben. Ausgabe der Lage- und Verteilungsparameter Statistics → Summaries, tables, & tests → Summary statistics → Summary statistics In das Feld “Variables”: Variable eintragen, für die Mittelwerte ausgegeben werden sollen. Zur Ausgabe weiterer Parameter „Options“ → Display additional statistics → OK Command: summarize VAR, detail Häufigkeitsanalyse Statistics → Summaries, tables, & tests → Tables → One-way tables In “Categorical variable:” Variable eintragen bzw. aus Liste auswählen → OK Command: tabulate VAR 6 Angela Hoffmann SS 2009 4. Graphische Analyse Graphiken werden genutzt, um „auf einen Blick“ Informationen über die Datenstruktur und mögliche Zusammenhänge zu gewinnen. Damit sind sie Grundlage der Formulierung von Hypothesen und Modellen. 4.1 Graphiktypen Streudiagramm Graphics → Easy graphs → Scatter plot In “X variable:” und “Y variable” gewünschte Variablen eintragen → OK oder Graphics → Twoway graph (scatterplot, line, etc.) Bei “Plot type:” Scatter auswählen → In “X variable:” und “Y variable” gewünschte Variablen eintragen → OK Command: graph twoway (scatter hheinkommen ausgaben) Histogramm Graphics → Easy graphs → Histogram “Main”: In “Variable:” Variable eintragen oder aus Liste auswählen → „Continuous data“ oder „Discrete data“ anklicken „Options“: Bei „Y axis“ „Density“ oder „Frequency“ auswählen → OK oder Graphics → Histogram In “Variable:” Variable eintragen → OK Command: graph twoway (histogram hhgre) (Zur weiteren Gestaltung eines Histogramms und entsprechende Abbildung unter Punkt 5.2.) 7 Angela Hoffmann SS 2009 Box-Plots Graphics → Easy graphs → Box plot “Main”: In “Variable:” Variable eintragen oder aus Liste auswählen → OK Graphics → Box plot → …. Command: graph box ausgaben 4.2 Graphik-Optionen Anhand einiger Beispiele werden ausgewählte Befehls-Optionen zur Gestaltung einer StataGraphik erläutert. Die vorgestellten Optionen gelten im Allgemeinen für alle Graphiktypen. Zur benutzerdefinierten Achsenbeschriftung dient die Option ,xlabel (0(1000)4000) bzw. ylabel (Beachtet werden muss, dass nur die erste Option mit einem Komma eingeleitet wird!). In der Klammer steht zuerst der Startwert der Beschriftung [,xlabel (0(1000)4000)], in der inneren Klammer folgt die Schrittweite [,xlabel (0(1000)4000)] und nach der Klammer folgt der Endwert der Beschriftung [ ,xlabel (0(1000)4000)]. Command: twoway (scatter ausgaben hheinkommen) (lfit ausgaben hheinkommen), xlabel(0(1000)4000 ytitle(„Ausgaben für AHV“ „in Euro“) ylabel(0(5)30) Die Graphik zeigt außerdem, wie zwei twoway-Graphiken überlagert werden können; scatter und lfit. Welche Hypothesen über den Zusammenhang zwischen dem Einkommen und den Ausgaben lassen sich ableiten? Alternativ können mit der Option ,xlabel Werte in der Beschriftung durch Wörter ersetzt werden. Dazu folgt innerhalb der Klammer der Zahl, die ersetzt werden soll, in Anführungszeichen der gewünschte Begriff [(0 „Mann“ 1 „Frau“)]. Command: histogram geschlecht, frequency discrete ytitle(„Absolute Häufigkeiten“) xlabel(0 „Mann“ 1 „Frau“) gap(50) title(Histogramm) Command: histogram geschlecht, frequency discrete gap(50) title(„Histogramm (color(black)“) ytitle(„Absolute Häufigkeiten“) xlabel(0 „Mann“ 1 „Frau“) color(black) 8 Angela Hoffmann SS 2009 Die weiteren Befehls-Optionen bedeuten: frequency → Ausgabe abs. Häufigkeiten statt Wahrscheinlichkeiten (Dichte). discrete → positioniert die Balken mittig über Werten. gap(50) → bestimmt den Abstand der Balken zwischen den zugehörigen Werten in %, d.h. 0<WERT<100. title(Histogramm) → fügt eine Überschrift in die Graphik ein. ytitle(„Absolute Häufigkeiten“) → fügt einen Achsentitel ein (Stata würde automatisch „Frequency“ ausgeben). color(black) → bestimmt die Farbe der Balken. Detaillierte Erläuterungen zur Erstellung und Gestaltung von Graphiken sowie eine Auflistung aller Graphiktypen können der Stata-Hilfe entnommen werden (Command: help graph (graph intro)). 5. Regressionsanalyse Nach der Vorabanalyse (graphisch und deskriptiv) kann mit der eigentlichen Regression begonnen werden. Hierzu wird ein Modell formuliert und anschließend anhand der Daten geschätzt. Die Ergebnisse dieser Schätzung werden dann ökonometrisch interpretiert. 5.1 Schätzungen Das Modell bei einer linearen Regression (OLS = ordinary least squares) enthält immer eine endogene (erklärte oder abhängige) Variable und mindestens eine exogene (erklärende oder unabhängige) Variable. Eine mögliche Fragestellung lautet beispielsweise, hängen die Ausgaben für den Außerhausverzehr (ausgaben) von der Haushaltsgröße (hhgre) und/ oder dem Haushaltseinkommen (hheinkommen) ab. Das zugehörige Modell lautet: ausgaben = β0 + β1 * hhgre + β2 * hheinkommen + u. Statistics → Linear models and related → Linear regression Endogene Variable in “Dependent variable:” eintragen → OK Exogene Variable(n) in „Independent variables:“ eintragen. Bei mehreren Variablen einfach durch Leerzeichen getrennt die Variablen auflisten. 9 Angela Hoffmann SS 2009 Wichtig: Stata fügt automatisch eine Konstante in die Regression ein (im Output: _const). Soll dies nicht geschehen unter „Treatment of constant“ → Supress constant term Command: regress ausgaben hhgre hheinkommen Wichtig: Auch hier muss die Konstante nicht extra aufgeführt werden. Stata erkennt automatisch die erste Variable nach dem Befehl regress als endogene, alle nachfolgenden als exogene Variable. 5.2 Teststatistiken zur ökonometrischen Interpretation Die Güte des Modells Number of obs: F( 2, 25): Prob > F R-squared: Adj R-squared: Root MSE: Schätzergebnisse ausgaben: hhgre, hheinkommen: _const: Coef.: Std. Err.: t: P > I t I: [95% Conf. Intervall]: Anova-Block Source: ModelSS: ResidualSS: TotalSS: SS: df: MS: Zahl der Beobachtungen empirischer F-Wert zur Überprüfung der Gesamtsignifikanz des Modells Wahrscheinlichkeit, dass alle Parameter βi in GG Null sind. Bestimmtheitsmaß R² korrigiertes R² Wurzel der mittleren Abweichungsquadrate des Modells aus dem Anova-Block endogene Variable exogene Variable Konstante geschätzte Parameter Standardfehler empirischer t-Wert (Coef./ Std. Err.) Wahrscheinlichkeit, dass Nullhypothese (βi=0) zutrifft. Bereich, der in 95 von 100 Fällen den tatsächlichen Wert des Parameters einschließt. erklärte Streuung (MSS) nicht erklärte Streuung (RSS) Gesamtstreuung (TSS = MSS + RSS) Summe der quadrierten Abweichungen (Sum of Squares) Freiheitsgrade mittlere Abweichungsquadrate (MS = SS/df) 10 Angela Hoffmann SS 2009 5.3 Zu den Annahmen des linearen Modells Um zu prüfen, ob die Annahmen zur OLS-Schätzung gelten, ist es zuerst notwendig, die geschätzten Fehler als Variable zu generieren. Am einfachsten geschieht dies NACH der Regression durch: Command: predict RESIDUEN, resid Test auf Normalverteilung Command: sktest RESIDUEN Residual-vs.-Fitted-Plot Diese Graphik wird betrachtet, um abzuschätzen, ob Erwartungswert der Residuen im Mittel Null ist. Diese Annahme gilt für die gesamte Stichprobe per Definition, muss jedoch auch lokal gelten. Des Weiteren kann der Plot Hinweise darauf liefern, ob Homoskedastizität oder Autokorrelation vorliegen. In der Graphik soll KEIN funktionaler Zusammenhang zwischen den Residuen und den Fitted-Values (d.h. den geschätzten endogenen Variablen) zu erkennen sein. Graphics → Regression diagnostic plots → Residual-versus-fitted → OK Command: rvfplot, yline(0) title(„RvF-Plot“ „gespeichert im Format *.wmf“) -10 -5 Residuals 0 5 10 15 RvF-Plot gespeichert im Format *.wmf 11.6 11.8 12 12.2 Fitted values 12.4 12.6 Weitere Funktionen zur Validierung der Regressionsergebnisse unter Command: help regress postestimation Autokorrelation Durbin-Watson-Test zum Test auf Autokorrelation 1. Ordnung Command: estat dwatson Breusch-Godfrey-Test zum Test auf Autokorrelation n-ter Ordnung Command: estat bgodfrey, lag(1/5) Hinweis: Stata führt Tests auf Autokorrelation nur durch, wenn der Datensatz als Zeitreihe definiert wurde (siehe help tsset). Heteroskedastizität Command: estat hettest VAR Mulikollinearität VIF (Variance-Inflation-Factor) testet anhand des Anwachsen des R², ob zusätzliche Variablen einen Sinn ergeben. Command: estat vif 11 Angela Hoffmann SS 2009 5.4 Testen linearer Restriktionen In vielen Fällen soll neben der statistischen Signifikanz auch eine Aussage darüber gemacht werden, ob bestimmte Annahmen für die Parameter gelten. Es ist beispielsweise bei der Modellierung der Arbeitsnachfrage mit Hilfe der Cobb-Douglas-Funktion nicht nur entscheidend, dass α und β signifikant von Null verschieden sind, sondern auch, ob die Restriktion [α + β = 1] gilt. Dazu wird nach der Regression die zu überprüfende Restriktion (Hypothese) mit folgendem Befehl anhand einer F-Statistik getestet: Command: test (α + β =1) 12 Angela Hoffmann SS 2009 6. Speichern und einfaches Programmieren 6.1 Daten speichern File → Save oder Save as... → Alten Datensatz überschreiben (empfiehlt sich im Allgemeinen nicht!) oder Daten unter neuem Namen (z.B. DATENNEU) im Format *.dta speichern → OK Command: save „x:\Vname\QMM_Übung\DATENALT.dta, replace Command: save „x:\Vname\QMM_Übung\DATENNEU.dta 6.2 Graphiken speichern Die Formate Windows Metafile(*.wmf) (vgl. Kapitel 6.3) und Windows Enhanced Metafile (*.emf) sind zu empfehlen, wenn die Graphiken unter Windows z.B. in WORD-Dateien verwendet werden sollen. Bei der Arbeit mit LATEX sollten die Formate PostScript (*.ps) oder Encapsulated PostScript (*.eps) gewählt werden. File → Save Graph... → Zielverzeichnis, Dateinamen und Dateityp auswählen → OK Command: graph export „x:\Vname\QMM_Übung\GRAPHIK.wmf“ 6.3 log-Dateien: Das Speichern der Ergebnisse Bei log-Dateien (Stata log files) handelt es sich um reine Textdateien im Format .log bzw. .smcl (formatted log file). Sie enthalten alle verwendeten Befehle einer laufenden Anwendung und deren zugehörige Ergebnisse (Outputs/ Results). D.h. einmal angelegt, dokumentieren sie jeden durchgeführten Anwendungsschritt, solange sie nicht wieder geschlossen werden. Bei Datenanalysen sollten auf jeden Fall log-Dateien angelegt werden, denn nur so kann später auf bereits gewonnene Ergebnisse zugegriffen werden und jeder Analyseschritt nachvollzogen werden. Anlegen eines log-file File → Log → Begin... → Zielverzeichnis auswählen → In „Dateiname:“ DOKUMENTATION eintragen → „Dateityp:“ log auswählen → OK Command: log using „x:\Vname\QMM_Übung\DOKUMENTATION.log“ Schließen des log-file File → Log →Close... → ENTER Command: log close 6.4 Do-files: Einfache Programme erstellen und durchführen In Do-files werden Kommando-Sequenzen eingegeben und kommentiert. So ist es besonders einfach, bestimmte Analyseschritte mehrmals zu wiederholen und im Nachhinein nachzuvollziehen. Anlegen und Bearbeiten eines Do-files File → Do… → Zielverzeichnis auswählen → In „Dateiname:“ PROGRAMM eintragen → „Dateityp:“ do auswählen → OK Befehle eintragen, Kommentare durch // bzw. /// einleiten, Überschriften einfügen und durch * kennzeichnen: 13 Angela Hoffmann SS 2009 *Deskriptive Statistik use „x:\Vname\QMM_Übung\AHV.dta“ // Datensatz öffnen tab geschlecht /// Häufigkeiten Hinweis: Wenn die Kommentare weniger als 75 Zeichen enthalten genügt der „//“ ansonsten bitte „///“ verwenden. Keine Zeilenumbrüche einfügen, da dies von Stata als Beginn eines neuen Befehls verstanden wird. Command: cmdlog using „x:\Vname\QMM_Übung\PROGRAMM.do” Durchführen eines Do-files File → Do… → Zielverzeichnis auswählen → Do-files auswählen → Doppelklicken Command: do „x:\\Vname\QMM_Übung\PROGRAMM.do“ 7. Befehle 7.1 Syntax Bei der Eingabe der Befehle über die Kommando-Zeile muss folgende Syntax beachtet werden. Für Graphiken sind einige Besonderheiten wegen der verschiedenen Plots, d.h. Graphiktypen zu beachten. [Präfix:] Command [Variablenliste] [if Bedingung] [in Bereich] [Gewicht] [, Optionen] Graph-Command (Plot-Command, Plot Options) (Plot-Command, Plot-Options) [, Graph-Optionen] 7.2 Die Bedingungen if und in if Der Befehl if wird verwendet, wenn nur ein Teil des Datensatzes (z.B. ein bestimmter Zeitraum oder Singlehaushalte) bei der Analyse berücksichtigt werden soll. Gleichheit if VAR == Wert Ungleichheit if VAR ~= Wert oder if VAR != Wert Größer- bzw. Kleiner-Verknüpfungen: >, >=, <, <= in Der Befehl in wird benutzt, um nur bestimmte Bereiche des Datensatzes zu berücksichtigen. 7.3 Das Befehls-Präfix by Ein Befehls-Präfix geht dem eigentlichen Befehl voran und kann nicht allein stehen. Durch das Präfix by wird der Datensatz in Kategorien unterteilt, für die der nachfolgende Befehl separat durchgeführt wird. D.h. by kann beispielsweise benutzt werden, um die Mittelwerte des Einkommens von Männer und Frauen mit nur einem Kommando zu berechnen. Wichtig: Um das Präfix zu verwenden muss der Datensatz immer zuerst nach der Variable, die die Kategorien vorgibt, sortiert werden; in unserem Beispiel also nach dem Geschlecht. Command: sort geschlecht by geschlecht: sum hheinkommen Command: bysort geschlecht: sum hheinkommen 7.4 Übersicht der wichtigsten Befehle (Commands) Die nachfolgende Tabelle enthält alle in dieser Einführung vorgestellten Befehle. Fett unterlegt sind die empfohlenen Verkürzungen. Diese sind so gestaltet, dass bei möglichst geringer Schreibarbeit die Erkennung der Befehle möglichst einfach bleibt. Ebenso wie bei den Befehlen können Variablen soweit verkürzt werden, dass sie gerade noch erkannt werden. D.h. sollte der Datensatz lediglich aus den Variablen Nummer, Geschlecht und 14 Angela Hoffmann SS 2009 Einkommen bestehen, genügt die Unterscheidung N, G, E. Jedoch ist bei der VariablenVerkürzung besondere Vorsicht geboten, damit die Analyse im Nachhinein auch für andere nachvollziehbar bleibt. Ein weiterer wichtiger Hinweis zur Arbeitserleichterung: Wenn dem Befehl keine Variable/ Variablenliste folgt, führt Stata den Befehl automatisch für alle Variablen durch. Command browse cd clear cmdlog using describe* Do drop Egen estat bgoldfrey estat dwatson estat hettest estat vif generate graph box graph export graph twoway histogram graph twoway lfit graph twoway scatter gsort help insheet using keep label define label values list log close log using outsheet using predict quit regress rename variable replace rvfplot save search sktest sort summarize tabulate test tsset use Beschreibung Anzeigen des Data-Editors (Änderungen nicht möglich) Wechseln des Verzeichnisses Löschen Erstellen eines Do-files Beschreibung von Datensätzen Durchführen eines Do-files Daten löschen Erstellen einer neuer Variablen (nachfolgend Funktion) Test auf Autokorrelation n-ter Ordnung Test auf Autokorrelation 1. Ordnung Test auf Heteroskedastizät Test auf Multikollonearität Erstellen einer neuer Variablen Erstellen eines Box-Plots Speichern von Graphiken Erstellen eines Histogramms Erstellen einer Regressionsgrade Erstellen eines Streudiagramms Sortieren (auf- und absteigend) Aufruf der Online-Hilfe Importieren von Datensätzen im Format .txt Daten auswählen Erstellen einer Labelvorschrift Zuornen einer Labelvorschrift Auflistung der Daten Schließen eines Log-files Öffnen eines Log-files Daten exportieren Errechnung der Residuen einer Regression Beendung von Auflistungen bei -morelineare Regression Umbennen einer Variable Ersetzen von Daten, Variablen Residuals-vs-Fitted-Plot Speichern von Daten Suchen Test auf Normalverteilung Daten sortieren Mittelwerte, etc. Häufigkeitstabellen Test linearer Restriktionen Variable als Zeitreihe definieren Laden von Datensätzen im Format .dta * fett unterlegt sind die empfohlenen Verkürzungen der Kommandos. Diese stimmen nicht immer mit der maximal möglichen Verkürzung der Befehle überein. Die maximale Verkürzung ist in der StataOnline-Hilfe durch Unterstreichung gekennzeichnet. Kritische Anmerkungen und Verbesserungsvorschläge zu dieser Einführung werden gerne angenommen ([email protected]). Vielen Erfolg und Freude mit Stata! 15