Einführung in die Varianzanalyse mit SAS
Transcription
Einführung in die Varianzanalyse mit SAS
Einführung in die Varianzanalyse mit SAS Inhalt 1. 2. 3. Benutzertreffen am URZ Carina Ortseifen 9. Mai 2003 4. 5. 6. 7. 1. Varianzanalyse { { kann nach zwei Methoden gerechnet werden: Klassische Methode nach Fisher (Zerlegung der Gesamtvarianz in Quadratsummen innerhalb und zwischen den Gruppen) Allgemeines lineares Modell (Korrelations- und Regressionsrechnung) 1.2 Hypothesen / Fragen { { F-Test: H0: Alle Mittelwerte µi sind gleich. Multiple Mittelwertvergleiche: Welche µi unterscheiden sich? Siehe Kapitel 4. Varianzanalyse Prozedur GLM Vergleich von k Gruppen Multiple Vergleiche Modellvoraussetzungen Weiterführende Themen Literatur 1.1 Beobachtungen und Modell { { { Beobachtungen yij, i=1,..,ni, j=1,..,k Beispiel: Iris-Daten, ni=50, k=3, yij=sw Einfaktorielles Modell mit festen Effekten: Yij=µi+εij (i=1,...,ni, N=n1+..+nk) µi unbekannte Erwartungswerte der k Gruppen εij unabhängige N(0,σ2)-verteilte Zufallsvariablen mit σ12=...=σk2 (Homoskedastizität) 1.3 Varianzzerlegung (Anova-Tafel) Streuung FG SS(*) MS=SS/FG ---------------------------------------------------Unterschiede zwischen k-1 Yi.-Y.. MST Gruppen F= MST / MSE Zufälliger N-k Yij-Yi. MSE Fehler Gesamt N-1 Yij-Y.. (*) Summe von Quadraten 1 2. Prozedur GLM 1.4 F-Test { { { H0 wird verworfen, wenn MST sehr viel größer als MSE ist, d.h. die Variation zwischen den Meßreihen ist wesentlich größer als die Variation innerhalb der Meßreihen. { Bestandteil von SAS/STAT { Notwendige Anweisungen: Proc GLM Class Model F=MST/MSE ist unter H0 F-verteilt mit k-1 und N-k Freiheitsgraden. Lehne H0 ab, wenn F>F k-1,N-k,1-α 3. F-Test mit GLM 3.1 Prozedur GLM - Ausgabe Nullhypothese H0: µ1= µ2= ... = µk General Linear Models Procedure Class Level Information LIBNAME stat 'n:\sasurz\daten-v8'; Class Levels PROC GLM DATA=stat.iris; CLASS blume; MODEL sw=blume; RUN; BLUME 3 3.1 Prozedur GLM - Ausgabe (2) 4. Multiple Mittelwertvergleiche Dependent Variable: SW Source DF Model 2 Error 147 Corrected Total 149 R-Square 0.400783 F Value 49.16 Pr > F 0.0001 28.30693333 C.V. 11.11059 1 2 3 Number of observations in data set = 150 Breite der Kelchblätter Sum of Squares 11.34493333 16.96200000 Values { { { SW Mean 3.05733333 F-Test ist ein globaler Test auf Unterschied in den k Mittelwerten Um zu sehen, welche Gruppen sich unterscheiden, rechnet man multiple Mittelwertvergleiche. MEANS-Anweisung, z.B. MEANS blume / BON SIDAK SCHEFFE; 2 4.1 MEANS-Anweisung 4.2 Bonferroni t-Test MEANS blume; { Level of BLUME --------------SW------------Mean SD N 1 2 3 50 50 50 3.42800000 2.77000000 2.97400000 0.37906437 0.31379832 0.32249664 berechnet Zweistichproben t-Tests für die Paarvergleiche und testet diese auf dem Niveau α/m (m = Anzahl der Paarvergleiche) Anzahl aller möglichen Vergleiche: k(k-1)/2 Bonferroni (Dunn) T tests for variable: SW 4.3 Ergebnisdarstellung NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. { Alpha= 0.05 df= 147 MSE= 0.115388 Critical Value of T= 2.42 Minimum Significant Difference= 0.1645 { in Form von Konfidenzintervallen oder als Tests für Paardifferenzen Option: CLDIFF Means with the same letter are not significantly differnt. Bon Grouping A B C Mean 3.42800 2.97400 2.77000 N 50 50 50 BLUME 1 3 2 Bonferroni (Dunn) t Tests for SW NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than Tukey's for all pairwise comparisons. 4.4 Weitere multiple Vergleiche Alpha 0.05 Error Degrees of Freedom 147 Error Mean Square 0.115388 Critical Value of t 2.42169 Minimum Significant Difference 0.1645 { { Comparisons significant at the 0.05 level are indicated by ***. BLUME Comparison 1 1 3 3 2 2 - 3 2 1 2 1 3 Difference Between Means Simultaneous 95% Confidence Limits 0.45400 0.65800 -0.45400 0.20400 -0.65800 -0.20400 0.28948 0.61852 0.49348 0.82252 -0.61852 -0.28948 0.03948 0.36852 -0.82252 -0.49348 -0.36852 -0.03948 { *** *** *** *** *** *** { Scheffé Kritische Differenz mit F-Verteilung Tukey neben NV wird balanciertes Design vorausgesetzt kritische Differenz mit student. Spannweitenvert. Dunnett Vergleiche mit einer Kontrolle (many one) Sequentielle Tests Optionen REGWQ, REGWF 3 4.5 Empfehlungen (nach DJS) { { { paarweise Vergleiche bei balanciertem Design TUKEY (Test u. KI) oder REGWQ paarweise Vergleiche bei unbalanciertem Design SCHEFFE oder SIDAK Lineare Kontraste SCHEFFE, manchmal auch SIDAK oder TUKEY 5.1 Normalverteilte Fehler 5. Modellvoraussetzungen Normalverteilung der Fehler Homoskedastizität (=Gleichheit der Gruppenvarianzen) 1. 2. und deren Überprüfung: Berechnung der Residuen und Normalverteilungscheck mittels Univariate 2. Option HOVTEST der Anweisung MEANS 1. 5.2 Homoskedastizität PROC GLM .... OUTPUT OUT=resi RESIDUAL=r; = Gleichheit der Gruppenvarianzen PROC UNIVARIATE DATA=resi NORMAL; VAR r; RUN; { { W:Normal Pr<W 0.988559 0.8997 { { 5.2.1 Bartlett-Test Bartlett-Test setzt normalverteilte Grundgesamtheiten voraus und Gruppengrößen von mindestens 5 Levene-Test setzt nur Stetigkeit voraus Brown-Forsythe Test O'Brien 5.2.2 Levene-Test MEANS blume / HOVTEST=BARTLETT; MEANS blume / HOVTEST=LEVENE; Bartlett's Test for Equality of SW Variance Levene's Test for Equality of SW Variance ANOVA of Squared Deviations from Group Means Source BLUME DF 2 Chisq Value 2.0911 Prob>Chisq 0.3515 Source BLUME Error DF Sum of Squares Mean Square 2 147 0.0584 4.7521 0.0292 0.0323 F Value Pr > F 0.9038 0.4073 4 6. Weiterführende Themen 1. 2. 3. 4. 5. Mehrfaktorielle Modelle Multivariate Varianzanalysen Zufällige Effekte Messwiederholung Nichtparametrische Alternativen Abgrenzung anderer SASProzeduren gegenüber GLM Beispiel: Fütterungsversuch { { { Abhängigkeit des Gewichtszuwachses von Futtermischungen Faktor A: Vitaminzusatz (1, 2, 3) Faktor B: Darrreichungsform (pelettiert, gemahlen) N=12 Ratten, d.h. n=2 Ratten pro Faktorkombination { { MODEL y=a b c; MODEL y=a b a*b; = Untersuchung des gemeinsamen Effekts von zwei Einflußfaktoren A und B { vollständig kreuzklassifiziert { hierarchisch klassifiziert Untersuchung von Haupteffekten und { Wechselwirkungen { Datenmaterial und GLM-Beispiel DATA ratten; INPUT a b gewicht @@; LINES; 1 1 13 1 1 15 1 2 14 1 2 18 2 1 15 2 1 21 2 2 27 2 2 29 3 1 14 3 1 18 3 2 25 3 2 31 ; PROC GLM DATA=ratten; CLASS a b; MODEL gewicht=a b a*b; MEANS a b / TUKEY CLDIFF NOSORT; RUN; 6.2 Zufällige Effekte Modellvielfalt { 6.1 Zweifaktorielle Varianzanalyse { Haupteffekt-VA VA mit Wechselwirkung { MODEL y1 y2=a b c; multivariate VA { Stufen des Einflussfaktors werden nicht systematisch und bewusst festgelegt oder vorgegeben, sondern zufällig ausgewählt. Beispiel: Von vielen vorhandenen Sorten werden drei zufällig ausgewählt. Anweisung RANDOM oder: Prozedur MIXED 5 6.3 Messwiederholung { Anweisungen REPEATED / MANOVA MODEL w1 w2 w3=a / NOUNI; REPEATED werte 3; { MANOVA ist früher entstanden, deckt daher nicht alles von REPEATED ab. Einschub { { Multiple Vergleiche könnte man für den Fall unabhängiger Gruppen mit händischen Wilcoxon-Tests durchführen. Die p-Werte des Wilcoxon-Tests kann man mit der Anweisung OUTPUT und den beiden Optionen OUT= und WILCOXON in eine neue SAS-Tabelle eintragen. 7. Literatur { { { SAS OnlineDoc Dufner, J., Jensen, U. Schumacher, E.: Statistik mit SAS. Teubner Verlag, 2002. Ortseifen, C., Graf, A.: Statistische und grafische Datenanalyse mit SAS. Spektrum Akademischer Verlag, 1995. 6.4 Nichtparametrische VA Unabhängige Gruppen Kruskal-Wallis Test Prozedur NPAR1WAY Aber: Keine direkten multiplen Vergleiche Abhängige Gruppen Friedman Test Prozedur FREQ, Option CMH Aber: Begriff erscheint nicht im Output, nur mittels Beispiel aus Handbuch sichtbar 6.5 Abgrenzung von GLM { { { { { { { Für balancierte Designs Gemischte lineare Modelle (Kovarianzstrukturen) Genestete gemischte Modelle NESTED NPAR1WAY Nichtpar. univariate Analyse (entspricht RANK+GLM) REG, RSREG Regressionsanalysen, Regressionsdiagnostik, Plots TTEST Vergleich von zwei Gruppen VARCOMP Schätzung von Varianzkomponenten allgemeiner linearer Modelle ANOVA MIXED 7. Literatur (2) { { { { Hatcher, L., Stepanski, E.: A Step-by-Step Approach to Using the SAS System for Univariate and Multivariate Statistics. Cary, NC: SAS Institute Inc. 1994. Khattrree, R., Dayanand, N.: Applied Multivariate Statistics with SAS Software. Cary, NC: SAS Institute Inc. 1995 Walker, G.: Common Statistical Methods for Clinical Research. Cary, NC: SAS Institute Inc. 1997. Westfall, P. u.a.: Multiple Comparisons and Multiple Tests Using the SAS System. Cary, NC: SAS Institute Inc. 1999. 6