Einführung in die Varianzanalyse mit SAS

Transcription

Einführung in die Varianzanalyse mit SAS
Einführung in die
Varianzanalyse mit SAS
Inhalt
1.
2.
3.
Benutzertreffen am URZ
Carina Ortseifen
9. Mai 2003
4.
5.
6.
7.
1. Varianzanalyse
{
{
kann nach zwei Methoden gerechnet
werden:
Klassische Methode nach Fisher
(Zerlegung der Gesamtvarianz in
Quadratsummen innerhalb und
zwischen den Gruppen)
Allgemeines lineares Modell
(Korrelations- und Regressionsrechnung)
1.2 Hypothesen / Fragen
{
{
F-Test:
H0: Alle Mittelwerte µi sind gleich.
Multiple Mittelwertvergleiche:
Welche µi unterscheiden sich?
Siehe Kapitel 4.
Varianzanalyse
Prozedur GLM
Vergleich von k Gruppen
Multiple Vergleiche
Modellvoraussetzungen
Weiterführende Themen
Literatur
1.1 Beobachtungen und Modell
{
{
{
Beobachtungen yij, i=1,..,ni, j=1,..,k
Beispiel: Iris-Daten, ni=50, k=3, yij=sw
Einfaktorielles Modell mit festen Effekten:
Yij=µi+εij (i=1,...,ni, N=n1+..+nk)
µi unbekannte Erwartungswerte der k
Gruppen
εij unabhängige N(0,σ2)-verteilte
Zufallsvariablen
mit σ12=...=σk2 (Homoskedastizität)
1.3 Varianzzerlegung (Anova-Tafel)
Streuung
FG
SS(*) MS=SS/FG
---------------------------------------------------Unterschiede
zwischen
k-1 Yi.-Y.. MST
Gruppen
F= MST / MSE
Zufälliger
N-k Yij-Yi. MSE
Fehler
Gesamt
N-1 Yij-Y..
(*) Summe von Quadraten
1
2. Prozedur GLM
1.4 F-Test
{
{
{
H0 wird verworfen, wenn MST sehr viel
größer als MSE ist, d.h. die Variation
zwischen den Meßreihen ist wesentlich
größer als die Variation innerhalb der
Meßreihen.
{
Bestandteil von SAS/STAT
{
Notwendige Anweisungen:
Proc GLM
Class
Model
F=MST/MSE
ist unter H0 F-verteilt mit k-1 und N-k
Freiheitsgraden.
Lehne H0 ab, wenn F>F
k-1,N-k,1-α
3. F-Test mit GLM
3.1 Prozedur GLM - Ausgabe
Nullhypothese H0: µ1= µ2= ... = µk
General Linear Models Procedure
Class Level Information
LIBNAME stat 'n:\sasurz\daten-v8';
Class
Levels
PROC GLM DATA=stat.iris;
CLASS blume;
MODEL sw=blume;
RUN;
BLUME
3
3.1 Prozedur GLM - Ausgabe (2)
4. Multiple Mittelwertvergleiche
Dependent Variable: SW
Source
DF
Model
2
Error
147
Corrected
Total
149
R-Square
0.400783
F Value
49.16
Pr > F
0.0001
28.30693333
C.V.
11.11059
1 2 3
Number of observations in data set = 150
Breite der Kelchblätter
Sum of Squares
11.34493333
16.96200000
Values
{
{
{
SW Mean
3.05733333
F-Test ist ein globaler Test auf Unterschied
in den k Mittelwerten
Um zu sehen, welche Gruppen sich
unterscheiden, rechnet man multiple
Mittelwertvergleiche.
MEANS-Anweisung, z.B.
MEANS blume / BON SIDAK SCHEFFE;
2
4.1 MEANS-Anweisung
4.2 Bonferroni t-Test
MEANS blume;
{
Level of
BLUME
--------------SW------------Mean
SD
N
1
2
3
50
50
50
3.42800000
2.77000000
2.97400000
0.37906437
0.31379832
0.32249664
berechnet Zweistichproben t-Tests
für die Paarvergleiche und testet
diese auf dem Niveau
α/m
(m = Anzahl der Paarvergleiche)
Anzahl aller möglichen Vergleiche:
k(k-1)/2
Bonferroni (Dunn) T tests for variable: SW
4.3 Ergebnisdarstellung
NOTE: This test controls the type I experimentwise
error rate, but generally has a higher type II
error rate than REGWQ.
{
Alpha= 0.05 df= 147 MSE= 0.115388
Critical Value of T= 2.42
Minimum Significant Difference= 0.1645
{
in Form von Konfidenzintervallen
oder als Tests für Paardifferenzen
Option: CLDIFF
Means with the same letter are not significantly differnt.
Bon Grouping
A
B
C
Mean
3.42800
2.97400
2.77000
N
50
50
50
BLUME
1
3
2
Bonferroni (Dunn) t Tests for SW
NOTE: This test controls the Type I experimentwise error rate,
but it generally has a higher Type II error rate than Tukey's for
all pairwise comparisons.
4.4 Weitere multiple Vergleiche
Alpha
0.05
Error Degrees of Freedom
147
Error Mean Square
0.115388
Critical Value of t
2.42169
Minimum Significant Difference
0.1645
{
{
Comparisons significant at the 0.05 level are indicated by ***.
BLUME
Comparison
1
1
3
3
2
2
-
3
2
1
2
1
3
Difference
Between
Means
Simultaneous 95%
Confidence Limits
0.45400
0.65800
-0.45400
0.20400
-0.65800
-0.20400
0.28948 0.61852
0.49348 0.82252
-0.61852 -0.28948
0.03948 0.36852
-0.82252 -0.49348
-0.36852 -0.03948
{
***
***
***
***
***
***
{
Scheffé
Kritische Differenz mit F-Verteilung
Tukey
neben NV wird balanciertes Design
vorausgesetzt
kritische Differenz mit student.
Spannweitenvert.
Dunnett
Vergleiche mit einer Kontrolle (many one)
Sequentielle Tests
Optionen REGWQ, REGWF
3
4.5 Empfehlungen (nach DJS)
{
{
{
paarweise Vergleiche bei balanciertem
Design
TUKEY (Test u. KI) oder REGWQ
paarweise Vergleiche bei unbalanciertem
Design
SCHEFFE oder SIDAK
Lineare Kontraste
SCHEFFE, manchmal auch SIDAK oder
TUKEY
5.1 Normalverteilte Fehler
5. Modellvoraussetzungen
Normalverteilung der Fehler
Homoskedastizität (=Gleichheit der
Gruppenvarianzen)
1.
2.
und deren Überprüfung:
Berechnung der Residuen und
Normalverteilungscheck mittels
Univariate
2. Option HOVTEST der Anweisung
MEANS
1.
5.2 Homoskedastizität
PROC GLM ....
OUTPUT OUT=resi RESIDUAL=r;
= Gleichheit der Gruppenvarianzen
PROC UNIVARIATE DATA=resi NORMAL;
VAR r;
RUN;
{
{
W:Normal
Pr<W
0.988559
0.8997
{
{
5.2.1 Bartlett-Test
Bartlett-Test
setzt normalverteilte Grundgesamtheiten
voraus und Gruppengrößen von mindestens 5
Levene-Test
setzt nur Stetigkeit voraus
Brown-Forsythe Test
O'Brien
5.2.2 Levene-Test
MEANS blume / HOVTEST=BARTLETT;
MEANS blume / HOVTEST=LEVENE;
Bartlett's Test for Equality of SW Variance
Levene's Test for Equality of SW Variance
ANOVA of Squared Deviations from Group Means
Source
BLUME
DF
2
Chisq
Value
2.0911
Prob>Chisq
0.3515
Source
BLUME
Error
DF
Sum of
Squares
Mean
Square
2
147
0.0584
4.7521
0.0292
0.0323
F Value
Pr > F
0.9038
0.4073
4
6. Weiterführende Themen
1.
2.
3.
4.
5.
Mehrfaktorielle Modelle
Multivariate Varianzanalysen
Zufällige Effekte
Messwiederholung
Nichtparametrische Alternativen
Abgrenzung anderer SASProzeduren gegenüber GLM
Beispiel: Fütterungsversuch
{
{
{
Abhängigkeit des Gewichtszuwachses
von Futtermischungen
Faktor A: Vitaminzusatz (1, 2, 3)
Faktor B: Darrreichungsform
(pelettiert, gemahlen)
N=12 Ratten, d.h. n=2 Ratten pro
Faktorkombination
{
{
MODEL y=a b c;
MODEL y=a b a*b;
= Untersuchung des gemeinsamen
Effekts von zwei Einflußfaktoren A
und B
{ vollständig kreuzklassifiziert
{ hierarchisch klassifiziert
Untersuchung von
Haupteffekten und
{ Wechselwirkungen
{
Datenmaterial und GLM-Beispiel
DATA ratten;
INPUT a b gewicht @@;
LINES;
1 1 13 1 1 15 1 2 14 1 2 18
2 1 15 2 1 21 2 2 27 2 2 29
3 1 14 3 1 18 3 2 25 3 2 31
;
PROC GLM DATA=ratten;
CLASS a b;
MODEL gewicht=a b a*b;
MEANS a b / TUKEY CLDIFF NOSORT;
RUN;
6.2 Zufällige Effekte
Modellvielfalt
{
6.1 Zweifaktorielle Varianzanalyse
{
Haupteffekt-VA
VA mit
Wechselwirkung
{
MODEL y1 y2=a b c;
multivariate VA
{
Stufen des Einflussfaktors werden
nicht systematisch und bewusst
festgelegt oder vorgegeben, sondern
zufällig ausgewählt.
Beispiel: Von vielen vorhandenen
Sorten werden drei zufällig
ausgewählt.
Anweisung RANDOM
oder: Prozedur MIXED
5
6.3 Messwiederholung
{
Anweisungen REPEATED / MANOVA
MODEL w1 w2 w3=a / NOUNI;
REPEATED werte 3;
{
MANOVA ist früher entstanden, deckt
daher nicht alles von REPEATED ab.
Einschub
{
{
Multiple Vergleiche könnte man für
den Fall unabhängiger Gruppen mit
händischen Wilcoxon-Tests
durchführen.
Die p-Werte des Wilcoxon-Tests kann
man mit der Anweisung OUTPUT und
den beiden Optionen OUT= und
WILCOXON in eine neue SAS-Tabelle
eintragen.
7. Literatur
{
{
{
SAS OnlineDoc
Dufner, J., Jensen, U. Schumacher, E.:
Statistik mit SAS.
Teubner Verlag, 2002.
Ortseifen, C., Graf, A.: Statistische und
grafische Datenanalyse mit SAS.
Spektrum Akademischer Verlag, 1995.
6.4 Nichtparametrische VA
Unabhängige Gruppen
Kruskal-Wallis Test
Prozedur NPAR1WAY
Aber: Keine direkten multiplen
Vergleiche
Abhängige Gruppen
Friedman Test
Prozedur FREQ, Option CMH
Aber: Begriff erscheint nicht im
Output, nur mittels Beispiel aus
Handbuch sichtbar
6.5 Abgrenzung von GLM
{
{
{
{
{
{
{
Für balancierte Designs
Gemischte lineare Modelle
(Kovarianzstrukturen)
Genestete gemischte Modelle
NESTED
NPAR1WAY Nichtpar. univariate Analyse
(entspricht RANK+GLM)
REG, RSREG Regressionsanalysen,
Regressionsdiagnostik, Plots
TTEST
Vergleich von zwei Gruppen
VARCOMP
Schätzung von
Varianzkomponenten
allgemeiner linearer Modelle
ANOVA
MIXED
7. Literatur (2)
{
{
{
{
Hatcher, L., Stepanski, E.: A Step-by-Step
Approach to Using the SAS System for
Univariate and Multivariate Statistics.
Cary, NC: SAS Institute Inc. 1994.
Khattrree, R., Dayanand, N.: Applied
Multivariate Statistics with SAS Software.
Cary, NC: SAS Institute Inc. 1995
Walker, G.: Common Statistical Methods for
Clinical Research.
Cary, NC: SAS Institute Inc. 1997.
Westfall, P. u.a.: Multiple Comparisons and
Multiple Tests Using the SAS System.
Cary, NC: SAS Institute Inc. 1999.
6

Documents pareils