reclip:more

Transcription

reclip:more
BOKU-Met
reclip:more
Research for Climate Protection:
Model Run Evaluation
Projektjahr 1
Projektteil BOKU-Met
Validierung – Sensitivitätstests
Institut für Meteorologie
Department Wasser - Atmosphäre - Umwelt
Universität für Bodenkultur
Arbeitsbericht für den Zeitraum 1.11.2003 – 30.6.2004
von
Andreas Frank
Herbert Formayer
Petra Seibert
Bernd C. Krüger
Helga Kromp-Kolb
INHALTSVERZEICHNIS
Ergebnisvalidierung – Definition statistischer Parameter .................................3
Einleitung ......................................................................................................3
Normalised root-mean square error (NMSE) ................................................3
Das Problem ..............................................................................................3
Lösungsvorschläge ....................................................................................4
Zusätzliche Bemerkungen zur Normierung mit absoluten Werten .............4
Figure of merit...............................................................................................5
Relative bias .................................................................................................5
Die Rolle des Korrelationskoeffizienten ........................................................6
Einfluss des BIAS auf den RMSE .................................................................6
Taylor Diagramm ..........................................................................................7
Vorschlag eines total skill score ....................................................................8
Evaluierungsstrategie ......................................................................................9
Einleitung ......................................................................................................9
Datenquellen.................................................................................................9
Arten von Läufen und Grundsätzliches zu ihrer Evaluierung ......................10
S1 – freie Episodensimulationen..............................................................10
S2 – Episodensimulationen mit Nudging .................................................11
S3 – 1-Jahr-Simulation ohne Nudging .....................................................11
Statistische Standardparameter..................................................................11
Evaluierungsmethoden für die verschiedenen Datenquellen ......................12
D1 – ERA-40............................................................................................12
D4 – Radiosonden ...................................................................................12
Domain-Setup .............................................................................................13
Domaingrößen .........................................................................................14
Validierungsstrategie ...............................................................................15
Parameter -Setup MM5, Aladin......................................................................15
Termine..........................................................................................................16
Erste Vergleichsrechnungen MM5 – Aladin ...................................................18
Festlegung der MM5- Parametrisierungen:.................................................18
Festlegung der für diesen Test sinnvollen Termine: ...................................18
Auswertung der Ergebnisse ........................................................................19
Detailierte Ergebnisdiskussion für die Temperatur in 850 hPa.................20
Geopotential in 850 hPa ..........................................................................29
Geopotential in 500 hPa ..........................................................................31
Spezifische Feuchte in 700 hPa...............................................................31
Niederschlagsverteilung...........................................................................32
Rechenzeit ...............................................................................................34
Synopsis – Schlussfolgerungen ...............................................................35
Ausblick – weitere Schritte.............................................................................35
Literatur..........................................................................................................37
Bildanhang .....................................................................................................38
2
Ergebnisvalidierung – Definition statistischer Parameter
Einleitung
Bestimmte Sets statistischer Parameter wurden speziell in der „Air pollution
modeling community“, in Europa im Rahmen von ATMES (Klug et al, 1992),
ETEX (Mosca et al: 1998a, b) und der so genannten Harmonisierungsinitiative
in Nordamerika Standard um Modelle untereinander und mit Beobachtungen
quantitativ zu vergleichen.
Einige von ihnen – NMSE, fractional bias und figure of merit beispielsweise –
sind problematisch und sollten durch modifizierte Größen ersetzt werden. Die
Details dazu werden in diesem Kapitel des Berichts kurz erläutert.
Keinesfalls stellt diese Zusammenstellung hier einen kompletten Überblick der
statistischen Parameter zur Modelevaluierung dar, es wird auch nicht versucht
einen umfassenden Vorschlag eines empfohlenen Sets von Parametern zu
formulieren.
Wir nehmen an, dass wir es mit paarweise angeordneten Daten zu tun haben
xio , xim , i ∈ [1, N ] , wobei das hochgestellte o für beobachtete Werte und das m
für modellierte Werte steht. Im Falle von Modellvergleichen können zwei
Modelle paarweise miteinander verglichen werden, dann bezeichnet o das
eine Modell und m das andere (für ein Set von M Modellen bedeutet dies,
M 2 − M Paare).
(
)
2
Normalised root-mean square error (NMSE)
Das Problem
Häufig (z.B. von Mosca et al, 1998b), ist se üblich den normalised meansquare error (NMSE) folgend zu definieren:
und den mean-square error (MSE) folgendermaßen zu definieren:
mit
Dieser kann folgendermaßen mit dem normalen root-mean-square error
(RMSE) in Verbindung gebracht werden:
Der NMSE hängt in der obigen Definition sowohl von den quadratischen
Differenzen der Datenpunkte als auch vom Mittel sowohl der modellierten als
auch der beobachteten Daten (oder von beiden Modellen im Fall eines
Modellvergleichs) ab.
3
Er hat die Eigenschaft für Modelle die überschätzen kleiner (besser) zu sein,
als für solche die unterschätzen, auch dann wenn beide Modelle denselben
RMSE aufweisen. Diese Eigenschaft ist unbefriedigend.
Lösungsvorschläge
Die einfachste Lösung besteht darin, den RMSE nicht zu normieren, ein Weg
der in all jenen Fällen möglich ist, wo keine relativen Werte benötigt werden.
Eine Normierung ist immer dann nötig, wenn verschiedene Größen
miteinander vergleichbar gemacht werden sollen (z.B. in einer
Kostenfunktion).
In all jenen Fällen wo Beobachtungen (Messwerte) zur Verfügung stehen,
sollte man immer diese zur Normierung heranziehen:
Für direkte Modellvergleiche, wenn man also keine Bebachtungen zum
normieren heranziehen kann, ist es am besten eine charakteristische
Magnitude, welche nicht von den Eigenschaften des Modellpaars abhängt zu
verwenden:
Im Falle eines Vergleichs mehrerer Modelle m ∈ [1, M ] kann der (quadratische)
Scale von x*2 als das Mittel der quadratischen Mittelwerte all dieser Modelle
angesetzt werden:
Zu Beachten ist, dass sich dies im Fall von M=2 nicht mit der standard
Definition des NMSE (1) deckt. Falls dies erwünscht ist, sollte der
quadratische Scale folgendermaßen definiert werden:
Ich weiß keine Argumente warum (8) bevorzugt verwendet werden sollte als
(7). Auf der anderen Seite, wenn wir den hypothetischen Fall annehmen, dass
ein Modell nur sehr kleinen Werten beinhaltet, dann würde die Definition 8 zu
einem extrem großen NMSE Wert führen. Speziell in Fällen wo M ≤ 3 ist
erscheint dies unbefriedigend, weshalb ich die Verwendung der Definition 7
empfehlen würde.
Zusätzliche Bemerkungen zur Normierung mit absoluten Werten
Die Normierung mit Größen die auf Mittelwerten beruhen ist nur für jene
Daten sinnvoll, wo diese Mittelwerte die Größenordnung der Varianz
repräsentieren. Dies ist zum Beispiel für die Konzentration atmosphärischer
Spurenbestandteile, wo der Hintergrund bereits abgezogen wurde, wie zum
Beispiel der ETEX-Daten, der Fall.
In einem allgemeineren Zusammenhang erscheint es jedenfalls besser den
MSE mit der Varianz der Daten zu normieren. Ein typisches Beispiel einer
4
Größe bei der dies nötig erscheint ist die Temperatur. Für den einen oder
anderen mag es durchaus naheliegend erscheinen diese Form der
Normierung auch auf die Daten der Spurenbestandteilkonzentration
anzuwenden.
Für den Vergleich von Modellwerten mit Beobachtungen, könnte der Scale
von x*2 dann folgendermaßen aussehen:
und im Falle des direkten Vergleichs mehrerer Modelle m ∈ [1, M ] als das
Mittel der Varianzen all dieser Modelle:
In der statistischen Optimierungstheorie kann gezeigt werden, dass eine
Kostenfunktion unter Berücksichtigung der Varianz zu den wahrscheinlichsten
Ergebnissen führt. Weiters sollte, falls eine Kovarianzstruktur erkennbar ist,
die Kovarianzmatrix zur Normierung verwendet werden. Dieser Punkt wird
speziell dann relevant, wenn die verwendeten Beobachtungen korreliert sind,
was im Falle der Meteorologie oft der Fall ist. Während dies mittlerweile
zumindest in einer angenäherten Form in Algorithmen wie der variationellen
Datenanalyse berücksichtigt wird, findet es bei der Modellevaluierung kaum
Anerkennung.
Figure of merit
Klug et al. (1992) und Mosca et al. (1998b) definierten eine figure of merit in
space und eine figure of merit in time. Sie sind definiert als die
Überlappungsfläche der beiden Gebiete Am und Ao geteilt durch die
Gesamtfläche von Beobachtung und Modell. Am ist hier die Modellfläche, in
der ein vorgegebener Schwellwert überschritten wurde und Ao die
entsprechende Fläche in den Beobachtungen:
Die Auswertung kann entweder auf Landkarten erfolgen (merit in space, FMS)
oder in Form von beispielsweise Zeitreihen der Konzentration (merit in time,
FMT).
Auch hier tritt das gleiche Problem wie beim NMS auf und man kann es auf
die gleiche Weise lösen, nämlich derart anstatt mit der Vereinigungsfläche nur
o
mit der Beobachtungsfläche A zu normieren oder mit der mittleren Fläche der
Modelle M −1 ∑m A m , falls es sich um einen Vergleich mehrerer Modelle
handelt.
Relative bias
Der Bias repräsentiert die mittlere (oder auch systematische) Abweichung
zwischen zwei Datenquellen:
5
und ein relative bias könnte folgendermaßen definiert werden:
Manchmal (z.B. Stohl et al., 1998) wird diese Größe als fractional bias
bezeichnet.
Dies führt erneut zum Problem welches oben diskutiert wurde und sollte auf
dieselbe Art und Weise vermieden werden.
Die Rolle des Korrelationskoeffizienten
Korrelationskoeffizienten (üblicherweise der Pearson-Korrelationskoeffizient,
manchmal eine Rankkorrelation) werden gerne verwendet, um die
Modellperformance zu beschreiben, entweder in Form des
Korrelationskoeffizienten r oder in Form des erklärten Varianzanteils r².
Will man r² verwenden, so muss man sich davon überzeugen, dass r positive
ist, andernfalls könnten falsche Schlussfolgerungen gezogen werden.
Das Hauptproblem bei Verwendung des Korelationskoeffizienten ist jenes,
dass er eine notwendige aber keine ausreichende Bedingung für eine gute
Übereinstimmung ist. Eine perfekte Korrelation wird nicht nur dann erreicht,
wenn Modell und Beobachtung ideal zusammenpassen, sondern auch dann,
wenn diese in einen linearen Zusammenhang zueinander stehen,
beispielsweise, wenn das Modell konstant um 50% unterschätzt. Die
Korrelation misst wie gut die Daten zu irgendeiner linearen Funktion passen,
wogegen das Ziel eines Models die Erfüllung der ganz speziellen linearen
Beziehung xo=xm sein muss.
Außerdem hängt der Korrelationskoeffizient vom Datenbereich ab: Bei
gleichem RMSE nimmt die Korrelation mit steigendem Datenbereich zu.
Daher kann der Korrelationskoeffizient als zusätzliche Entscheidungshilfe
herangezogen werden aber die Hauptentscheidung über die
Modellperformance sollte auf anderen Größen basieren.
Einfluss des BIAS auf den RMSE
Der Bias repräsentiert die mittlere (oder auch systematische) Abweichung
zwischen zwei Datenquellen, wogegen der RMSE die mittlere Differenz (im
Sinne des RMS) zwischen den entsprechenden Datenpunkten beschreibt. Ein
hoher Wert des Bias impliziert einen hohen Wert des RMSE, obwohl die
Daten womöglich nur um einen gewissen Offset gegeneinander verschoben
sind und ansonsten sehr gut übereinstimmen. Daher macht die Definition
einer dritten Größe, nämlich des bias-corrected RMSE Sinn:
Nach Sachs (1992, p. 128) kann diese Größe auch folgendermaßen
berechnet werden:
6
Manchmal (z.B., Crescenti, 1997) wird diese Größe als precision bezeichnet,
aber da diese Bezeichnung nicht klar ist und auch sonst weitverbreitet sollte
man sie hier vermeiden.
Ich denke der relative Bias und der normierte bias-korrigierte RMSE:
mit x∗ definiert nach (8) oder (9) sind sehr brauchbare Gütemaße für viele
Anwendungen. Wie auch immer Daten mit einer angenäherten log-normal
Verteilung sollten besser vor der Berechnung dieser Größe transformiert
werden.
Taylor Diagramm
Taylor (2001) zeigte auf, dass es eine Beziehung gibt zwischen dem biascorrected RMSE, der Varianz und dem Korrelationskoeffizient zweier
Datensets.
In unserer Notation sieht dies folgendermaßen aus:
Er empfiehlt ein Polardiagramm, wo die Radialkoordinate die
Standardabweichung repräsentiert und die Winkelkoordinate derart definiert
ist, dass r=cosϕ ist. Die Referenz (Beobachtung) wird dann bei ϕ=0 und
Radius σo geplottet und das Modell bei ϕ=r und Radius σm. Die Distanz
zwischen diesen beiden Punkten stellt dann den BC RMSE (in denselben
Einheiten wie die Standardabweichung) dar. Mit anderen Worten, für eine
gegebene Referenz können nur mehr zwei der verbleibenden Parameter
(Standardabweichung Modell, BC RMSE, r) unabhängig von einander
variieren.
Weiters schlug er zwei Formeln vor, die diese Parameter zu einen einzigen
Skill-Score Sr vereinigen.
Die Hauptbedingungen dazu sind die folgenden:
Diese Bedingung ist für hohe Korrelationen durch den Kehrwert des BC
RMSE erfüllt, aber für kleine Korrelationen muss die Korrelation selbst in der
Skillscoreformulierung berücksichtigt werden.
Die einfachste Formel, welche dem BC RMSE ein relativ hohes Gewicht gibt
ist die folgende:
(hier ist angenommen, dass Sr=1 für r=1; Taylor hat vorgeschlagen, diesen
Wert durch die „erzielbare Korrelation“ zu ersetzen.) Die Standardabweichung
des Modells wird in diesem Fall mit jener der Beobachtung normiert. Man
kann dies genauso im Diagramm machen, indem man die Radialachse in
Einheiten von σo skaliert.
Abbildung 1 zeigt Isolinien von Sr im Taylor Diagramm. Man sollte aber
beachten, dass der Bias in Taylor’s Skillscore nicht berücksichtigt wird.
7
Abb.1: Beispiel des Taylor Diagramms mit Isolinien des Skillscores Sr und
Niederschlagswerten über Indien, die mit 28 Modellen simuliert wurden.
(aus Taylor (2001), Fig. 10.)
Vorschlag eines total skill score
Wie wir gesehen haben kann die Idee des normierten bias korrigierten RMSE
zu Taylor’s Skillscore erweitert werden, indem ein Korrelationsanteil, der
speziell für große Werte des NBC RMSE wichtig wird, hinzugefügt wird.
Wollen wir zusätzlich den (relativ) BIAS im Skillscore berücksichtigen, so
muss zuerst eine Formulierung gefunden werden, die den relativ BIAS (RB) in
einen Skill Score Sb mit 0 ≤ S b ≤ 1 transformiert, wobei 1 für RB=0 erreicht
wird. Ein sinnvolles Ergebnis kann beispielsweise mit folgender Formel erzielt
werden:
Das Setzen des Wertes a=10 scheint eine vernünftige Abbildung solch eines
Skillscores zu sein, wie in Tabelle 1 zu sehen ist.
Nun können bei Skillscores zu einem Gesamtskillscore S kombiniert werden
Tab.1: Einige Zahlenwerte des Bias skill scores definiert nach Gl.19 mit a=10
.
8
Evaluierungsstrategie
Einleitung
Die Modellevaluierung soll im Rahmen von RECLIP zwei Zielen dienen:
• Auswahl eines möglichst optimalen Set-ups für MM5 und
gegebenenfalls auch Aladin (Gebiete, Gitter, Modellphysik)
• Vergleichender Test der Leistungsfähigkeit der beiden Modelle im
Hinblick auf Klimaanwendungen
Für die Tests wird folgende Reihenfolge vorschlagen:
1. Festlegung von Gebiet und horizontalem Gitter
2. Untersuchung, ob Zängl-Version (Zängl, 2003) sinnvoll ist
3. Tests mit Optionen zur Modellphysik (außer SVAT)
4. (Langzeit-)Test des/der SVAT(s)
Datenquellen
Folgende Datenquellen stehen prinzipiell zum Vergleich mit den Ergebnissen
der Modelle zur Verfügung:
ERA-40 Felder:
Am Europäischen Zentrum für mittelfristige Wettervorhersage (ECMWF)
wurde mit Hilfe des operationellen Vorhersagemodells (in reduzierter
Auflösung) ein 3D-Analysendatensatz erstellt (Kållberg 2004).
Datengrundlage dieses Modellaufs sind die Beobachtungen der letzten 45
Jahre, weshalb man quasi 3D Beobachtungen zur Verfügung hat, also fast die
wirklichen Felder jedes einzelnen Tages. Diese Daten sind mit einer
horizontalen Auflösung von 1° auf 60 Modellflächen oder 23 Druckflächen
verfügbar und werden im Rahmen dieses Projekts auch zum Antrieb der
mesoskaligen Modelle verwendet.
VERA-Analysen:
VERA (Vienna Enhanced Resolution Analysis) wurde am Institut für
Meteorologie und Geophysik der Universität Wien entwickelt. Dieses
Interpolationsverfahren dient der hochauflösenden Analyse von
zweidimensionalen Feldern wie etwa dem Druck oder der Temperatur
(Steinacker et al. 2000).
Niederschlagsanalyen:
24-std. Niederschlagssummen aufbereitet von Christoph Frei stehen auf
einem regelmäßigen Gitter im Alpenraum für die Perioden 1971-1995 sowie
7.9.-15.11.1999 (MAP-SOP) zur Verfügung. Das Gitter ist ein Lat-Lon-Gitter
mit ∆x=0.3° und ∆y=0.22°, also etwa 25 km Maschenweite. Zusätzlich zu
diesen sehr genauen Daten sollen noch grober aufgelöste Daten für andere
Perioden vom Weltniederschlagszentrum in Offenbach für spätere Tests zur
Verfügung stehen.
9
Radiosonden:
Ein homogenisierter, qualitätsgeprüfter Radiosonden-Datensatz von Christian
Häberli (Comprehensive Alpine Radiosonde Data Set – CALRAS)1steht zur
Verfügung. Daten (Teil A [Hauptdruckflächen] und B [markante Punkte],
teilweise auch noch höhere Auflösung) von ca. 25 Stationen im und um den
Alpenraum sind für den Zeitraum 1980-2000 am IGAM vorhanden.
Stationsdaten:
Im Rahmen des Mesoscale Alpine Program (MAP) wurde im Herbst 1999
(7.9. - 15.11) ein dichtes Stationsmessnetz im Alpenraum betrieben, welches
eine sehr gute Datengrundlage für die Validierung der Modellergebnisse mit
Bodenstationen bildet. In diesem Zeitraum und auch schon die Monate davor
liegen sehr viele qualitätsgeprüfte Beobachtungen vor. Viele Stationen
wurden zusätzlich zu den permanent verfügbaren Synop- und Klimastationen,
die natürlich auch zur Evaluierung herangezogen werden können, betrieben.
Arten von Läufen und Grundsätzliches zu ihrer Evaluierung
Da sie jeweils unterschiedliche Methoden der Evaluierung erfordern, ist es
wichtig, die verschiedenen Arten von Modell-Läufen zu beachten:
•
Episodensimulationen mit Randbedingungen aus ERA-40 zur
Optimierung vor allem von Gebiet und Gitter, evt. auch manchen
Modellphysik-Optionen
•
Episodensimulationen mit Randbedingungen und Gitterpunkt-Nudging
aus ERA-40 zur Optimierung von Modellphysik und Gitter
•
1-Jahr-Simulation mit Randbedingungen aus ERA-40 zur Optimierung
des SVAT-Schemas und für den vergleichenden Test der beiden
Modelle, sowie zur generellen Abschätzung der Leistungsfähigkeit der
Modelle
Im ersten Projektjahr wurden von allen Projektpartnern die jeweils nötigen
Tools entwickelt, und für die später folgende Auswertung und zum Testen der
entwickelten Module wurde mit dem ersten Test begonnen; alle weiteren
Tests werden sukzessive im zweiten Projektjahr durchgeführt. Trotzdem soll
hier gleich die gesamte Evaluierungsstrategie erläutert werden, damit ein
klares Gesamtbild zur Evaluierung entsteht.
S1 – freie Episodensimulationen
Die Größe des Modellgebietes soll so gewählt werden, dass der Einfluss der
Ränder so stark ist, dass das im Inneren vom Modell generierte Wetter noch
determiniert ist, jedoch nicht zu stark, so dass die höhere Auflösung im
Vergleich zu ERA-40 (bzw. GCM) die Freiheit hat, abweichende – hoffentlich
bessere – Strukturen zu produzieren. Die Prüfung, ob das generierte Wetter
1
Siehe http://homepage.univie.ac.at/christian.haeberli/CALRAS.htm, dort auch eine technische
Beschreibung
10
noch realistisch ist, kann anhand von ERA-40 Daten erfolgen. Dazu muss ein
Upscaling auf die Auflösung von ERA-40 erfolgen. Die Prüfung sollte im
Gesamtgebiet mit Ausnahme der randnahen Zonen erfolgen. Die Fähigkeit,
bessere Strukturen zu erzeugen, soll primär im Alpenraum und Umgebung
geprüft werden. Wenn wir die Gebiete der innersten Nester der diversen
Testläufe (verschiedene MM5- und ggf. Aladin-Varianten) i mit Ai bezeichnen,
sollte dieses Gebiet I Ai (größtes noch allen Läufen gemeinsames Gebiet)
sein. Prüfung zusätzlich zu D1 (siehe unten) anhand von D3, D5 und
möglichst auch D2.
Da die Freisetzung latenter Wärme ein wesentlicher Faktor der Zyklogenese
ist (Pichler and Steinacker, 1975), bieten sich S1-Simulationen auch für die
Beurteilung von Konvektions- und Feuchteschemata an.
_
S2 – Episodensimulationen mit Nudging
Diese Simulationen sollen der Optimierung von Modellphysik-Optionen
dienen. Wir wollen, dass die Phase und Amplitude der synoptischen Systeme
keine groben Fehler aufweist, so dass die Vergleiche mit den Beobachtungen
Auskunft über die Qualität der kleinräumigen, orographisch und durch die
Unterlage bestimmten Phänomene geben. Die Datensätze D2-D5 sollen für
die Prüfung herangezogen werden. Je nach Fragestellung können
unterschiedliche Episoden verwendet werden.
S3 – 1-Jahr-Simulation ohne Nudging
Das Jahr 1999 soll als Ganzes simuliert werden, um einen Eindruck von der
Qualität des Ergebnisses zu erhalten, das dann auch für die eigentlichen
Klimarechnungen erwartet werden kann.
Da sich die Landoberflächen-Schemata (SVAT) erst auf dieser Zeitskala
deutlich auswirken, soll diese Simulation, wenn möglich bzw. noch erforderlich
auch der Auswahl zwischen den im MM5 möglichen SVAT-Schemata dienen.
Alle Datensätze (D1-D5) sollen für die Evaluierung verwendet werden.
Statistische Standardparameter
Folgende statistischen Standardparameter sind zu berechnen, wobei die
jeweiligen Parameter und Grundgesamtheiten bei den entsprechenden
Datenquellen bzw. Tests spezifiziert werden:
P-1. x o (Gl. 3)
P-2. RMSE (Gl. 4)
P-3. Bias (Gl. 12)
P-4. Bias-korrigierter RMSE (Gl. 14)
P-5. Inputdaten für das Taylor-Diagramm: Standardabweichungen Modell und
Beobachtung sowie Korrelationskoeffizient
P-6. Fisher’s skill score (Gl. 18)
P-7. Bias skill score (Gl. 19 mit RB = Bσ x−1 , siehe Gl. 9, und a=10).
P-8. Total skill score (Gl. 20 mit α=0.5).
11
Evaluierungsmethoden für die verschiedenen Datenquellen
Die detaillierte Ausarbeitung der Evaluierung mit bestimmten Daten erfolgte
vorerst für ERA-40 Daten, da diese für die ersten Tests vorrangig verwendet
werden und für Radiosondendaten, damit sich die dafür zuständigen Kollegen
ein Bild der von uns vorgeschlagene Evaluierungsmethodik machen können.
D1 – ERA-40
Zu evaluierende meteorologische Parameter:
•
Geopot. Höhe der 850 hPa Fläche (Gebiete mit Topographie, die
höher reicht, sind auszunehmen, wobei dieses Gebiet für alle Tests
und Modelle einheitlich zu definieren ist)
•
Temperatur auf der 850 hPa Fläche (Gebiet wie oben)
•
absolute Feuchte (g Wasserdampf pro kg feuchter Luft) auf der 850
hPa Fläche (Gebiet wie oben). (Von der Kombination zu Θe wird
abgesehen, um die Feuchte auch getrennt untersuchen zu können, die
u.U. von manchen Parametrisierungen extra beeinflusst ist).
•
Geopot. Höhe der 500 hPa Fläche
Dies setzt die Extraktion der entsprechenden Druckflächen-Daten (oder ihre
Berechnung durch Interpolation) und die Definition der wegen der
Topographie auszulassenden Gebiete voraus.
Die Evaluierung soll sich auf die Felder zu den synoptischen Hauptterminen
(00,06,12,18 UTC) stützen und 48 h nach Modellstart beginnen.
Mit Hilfe von Postprozessoren werden die Modellergebnisse auf Druckflächen
gebracht und anschließend mittels Cressman-Methode auf das ERA-40 Gitter
interpoliert.
Zu berechnende Kenngrössen:
Standardparameter P-1 bis P-8
(a) für jeden Evaluierungs-Zeitschritt und jeden meteorologischen Parameter
(b) für gesamte Evaluierungsperiode und jeden meteorologischen Parameter
(c) Gesamt-Skill-score gemittelt über alle meteorologischen Parameter für
gesamte Evaluierungsperiode.
Wetterkarten der gewählten Parameter, die für die subjektive Interpretation
und Bewertung der Ergebnisse hilfreich erscheinen, sollten von den
Modellbetreibern miterzeugt werden.
D4 – Radiosonden
Radiosonden sind die einzigen uns zur Verfügung stehenden Daten, die
kleinräumige Phänomene in der freien Atmosphäre bzw. im vertikalen Profil
beschreiben. Sie eignen sich daher vor allem für die Anwendung im
Alpenraum und Umgebung und sollten nur mit dem feinen Nest verglichen
werden. Sie sollen vor allem zur Prüfung der kleinräumigen
Strömungsstrukturen und der Grenzschicht-Parametrisierung eingesetzt
werden. Es wird daher vorgeschlagen, Daten bis 3500 m über Grund zu
verwenden.
12
Datenaufbereitung: Lineare Interpolation von Temperatur, relativer Feuchte,
u- und v-Komponente sowie Betrag des Windes auf vorgegebene Höhen über
Grund, sowohl im Modell wie in den Beobachtungen.
Vorschlag für die Höhen [in m agl]:
50 - 100 - 150 - 200 - 300 - 400 - 500 - 700 - 900 - 1200 - 1500 - 1800 - 2200 2600 - 3000 – 3500
Berechnung der statistischen Parameter wie oben
(a) für jede Station, jede Höhe und jeden Parameter über jeweils eine
Episode,
(b) dasselbe, jedoch getrennt für 00 Z und 12 Z Aufstiege (Zwischenaufstiege
hier nicht berücksichtigt),
(c) die Ergebnisse von (a) und (b) gemittelt über alle Stationen,
(d) Skillscore gemittelt über alle Stationen und Parameter für jedes Niveau
wobei der Skillscore folgendermaßen gewichtet wird:
2
1
2
ST + SU + (0.3SU + 0.3S v + 0.4S ff )
5
5
5
(e) Skillscores nach (d) gemittelt über alle Niveaus.
Domain-Setup
Um sicher zu gehen, dass die für Europa meteorologisch wichtigen Prozesse
gut erfasst werden schien es uns notwenig, das mit MM5 modellierte Gebiet in
Richtung Atlantik auszudehnen. Wir wählten ein großes Gebiet (G2), in dem
Island noch mit simuliert wird, und ein kleineres (G1), das im Südwesten bis
10°W reicht (siehe Abbildung 2). Da im Osten die Erstreckung bis zum Ural
hin sicherlich für das Wetter in Alpenraum ausreichend ist, wurde die Domain
so gelegt, dass ihr Zentrum nicht in Österreich liegt, sondern bei 52.5° / 11.3°
für die große Domain und 49.5°/11.3° für die kleine Domain. Das große
Gebiet entspricht in etwa jenem, welches von den meisten im EU-Project
Prudence beteiligten Modellen abgedeckt wird. Durch diese Verschiebung des
Domainzentrums nach Nordwesten konnte das Gesamtrechengebiet
verkleinert werden, weshalb nur mehr ein Nest notwenig wurde. Diese
Maßnahme ermöglichte es den Rechenaufwand erträglich zu halten. Ob die
Auflösung von 30 km im großen Gebiet bzw. 10 km im Nest große Vorteile
gegenüber der gröberen Auflösung von 45 km / 15 km erbringt, muss bei der
Auswertung der Tests festgestellt werden. Der Faktor drei zwischen den
Neststufen ist vom Programm vorgegeben. Die horizontale Modellauflösung
bestimmt den verwendbaren Zeitschritt im Modell, da dieser in der Regel
dreimal länger sein muss, als die horizontale Gitterauflösung, um das CFLKriterium zu erfüllen
Die Frage der vertikalen Auflösung muss ebenfalls noch behandelt werden.
Ursprünglich war daran gedacht, diese im Kontext der
Grenzschichtparametrisierungen zu behandeln. Jedoch könnte es sein, dass
die Auflösung in der freien Atmosphäre auch ein relevanter Parameter ist, und
sie wäre dann in Zusammenhang mit dem Domainsetup zu untersuchen.
13
Domaingrößen
Im Folgenden sollen nun die 4 verschiedenen Domainsetups ein wenig
erläutert werden.
In der Abbildung 2 sind die verschiedenen Ausschnitte und Auflösungen zu
erkennen. Es sind hier auch zusätzlich die Aladin-Domain und eine
zusätzliche MM5-Domain, welche ähnlich jener des Aladin ist, um die direkten
Vergleiche ehrlicher zu machen, abgebildet. Dargestellt ist die Temperatur in
850 hPa für einen Tag aus der 2. Episode, da nur für diese die MM5Aladindomain mitgerechnet wurde. In allen MM5-Domains liegt noch ein Nest,
welches die jeweilige Feinauflösung (15 km bzw. 10 km) über dem Alpenraum
enthält. Dies ist der Übersichtlichkeit wegen hier nicht eingezeichnet.
Abb. 2: Domain-Setups für MM5 und Aladin. A005 bezeichnet die große MM5 Domain mit
45km Auflösung. A006 bezeichnet die kleine MM5 Domain mit 45km Auflösung. In der
2.Zeile sind die beiden Domains mit jeweils 30 km Auflösung dargestellt (A007:groß,
A008: klein). In der untersten Zeile ist links die Aladin-Domain dargestellt und rechts die
MM5-Doamin, welche ähnlich jener des Aladin gestaltet ist.
14
Validierungsstrategie
Test für äußere Domain D01 (mit grober (45 km) Auflösung):
G1 kleineres Gebiet
G2 großes Gebiet
Gx
Test für Nestdomain D02 (mit grober (15 km) Auflösung):
N1 kleiner
N2 größer
GxNx
Test zur Auflösung:
45 km – 15 km
30 km – 10 km
GxNxAx
D.h. zur Festlegung der Domain und Auflösung sind
mindestens 6 Rechnungen notwendig.
Parameter -Setup MM5, Aladin
Das PSU/NCAR mesoskalige Modell (bekannt als MM5) ist ein kleinräumiges,
nicht hydrostatisches geländefolgendes Modell in sigma-Koordinaten,
entwickelt um mesoskalige atmosphärische Prozesse zu simulieren.
Es wurde an der Penn State University und NCAR als gemeinsames
mesoskaliges Modell entwickelt (Grell et al. 1994). Das Modell wird
üblicherweise mit meteorologischen Vorhersagedaten (z.B. ECMWF)
betrieben. Mit Hilfe eines Nesting-Verfahrens wird eine horizontale Auflösung
im km-Bereich erreicht.
MM5 beinhaltet viele verschiedene Parametrisierungen von physikalischen
Prozessen, die in unterschiedlichen Kombinationen miteinander verwendet
werden können (vgl. Abb.3).
Im Modell stehen 8 verschiedene Varianten zur Cumulus-Parametrisierung, 7
verschiedene Grenzschichtschemata, 8 explizite NiederschlagsParametrisierungen, 4 Möglichkeiten zur Strahlungs-Parametrisierung und 3
verschiedene Bodenschemata zur Verfügung. All diese Parametrisierungen
sind stark miteinander gekoppelt und manche davon ohne bestimmte andere
gar nicht anwendbar. Die Vielzahl an verfügbaren Parametrisierungen
ermöglicht es für die verschiedensten Anwendungen ein geeignetes Modell
zur Verfügung zu haben.
Die Aufgabe des Modellierers besteht nun darin das für die jeweilige
Fragestellung optimale Setup zu finden. Für die übliche Anwendung des
Modells, nämlich kurzfristige hochaufgelöste Wettervorhersagen, findet man
jede Menge Empfehlungen und Literatur über die geeignete Wahl der
Parameter. Der in diesem Projekt verfolgte Ansatz, nämlich ein dynamisches
Klimadownscaling im Alpenraum durchzuführen, ist hingegen innovativ,
15
weshalb das bestmögliche Parameter-Setup erst gefunden werden muss, und
dafür diverse Tests durchzuführen sind.
Auch für das zweite zum Einsatz kommende mesoskalige Modell, ALADIN,
muss das passende Setup gefunden werden. Dies wird jedoch von den
Modellbetreibern festgelegt und diese stellen zu jedem von uns für das MM5
vorgeschlagenen Test adäquate Aladinergebnisse zur gemeinsamen
Validierung zur Verfügung.
Abb. 3: MM5-Parametrsierungswechselwirkungen
Termine
Zur Durchführung der Parametertests ist es erforderlich, geeignete Termine
und Episoden, die charakteristische Wettersituationen beinhalten, zu eruieren.
Aufgrund der guten Datenlage sollten die Perioden, soweit möglich im
Zeitraum der MAP Special Observing Periode (SOP) liegen. Da nicht alle für
die Parametertests notwendigen Wetterlagen in diesem Zeitraum auftraten
und um auch andere Jahreszeiten testen zu können wurde ein Schwerpunkt
auf das Jahr 1999 gelegt, aber auch andere Jahre berücksichtigt. In Tabelle 2
sind die einzelnen Episoden, sowie ein charakteristisches Fallkürzel und das
aufgetretene Wetter vermerkt. Die Perioden wurden zum einen mit Hilfe der
MAP-Datenbank zum anderen aufgrund der täglichen Klima- und
Wetterinformation der ZAMG, sowie der Analyse von Wetterkarten
ausgewählt.
16
Tab.2: Wetterlagen und Termine für Tests der physikalischen Parametrisierungen und
Domains. Die Spin-Up Zeit ist noch nicht berücksichtigt (Vorschlag 2-3Tage) Jeder Fall ist
durch ein Kürzel eindeutig definiert. Die Abkürzungen sind wie folgt zu lesen: Mp = MAPEpisode, Ep = Episode, ST = Strahlung, SF = Südföhn, NF = Nordföhn, BL =
Bodenfeuchte/ Grenzschicht, KO = Konvektion, RR = Niederschlag.
Fallkürzel Beginn
Ende
Dauer(d) Wetter
MpSF1
MpSF2
MpSF3
MpSF4
MpNF1
MpBL1
MpST1
MpST2
EpRK1
EpRK2
EpRR1
EpRR2
EpRR3
EpSF1
EpSF2
EpSF3
EpSF4
EpST1
EpST2
EpST3
EpST4
EpST5
EpST6
EpST7
EpKO3
18.09.99
21.10.99
29.10.99
04.11.99
07.11.99
15.10.99
11.09.99
07.11.99
07.08.99
13.07.99
21.07.92
04.07.94
22.07.95
14.04.99
28.04.99
17.05.99
05.06.99
18.01.98
01.02.98
05.02.98
30.03.98
08.01.98
09.02.98
16.01.99
07.05.98
21.09.99
25.10.99
30.10.99
05.11.99
07.11.99
19.10.99
11.09.99
07.11.99
07.08.99
13.07.99
22.07.92
06.07.94
22.07.95
15.04.99
29.04.99
19.05.99
06.06.99
18.01.98
01.02.98
05.02.98
31.03.98
13.01.98
15.02.98
24.01.99
13.05.98
3
5
2
2
1
5
1
1
1
1
2
3
1
2
2
3
2
1
1
1
2
6
7
9
7
EpKO4
23.05.99
01.06.99 10
EpKO5
18.07.99
25.07.99 8
EpRR4
EpRR5
EpRR6
EpRK7
EpRK8
EpRR9
EpRR10
03.12.88
02.08.87
17.12.87
10.07.90
20.07.81
08.10.93
04.10.92
03.12.88
02.08.87
17.12.87
10.07.90
20.07.81
08.10.93
05.10.92
Südföhn/Stauniederschlag
Südföhn
Südföhn
Südföhn
Nordföhn
Boden-Hochnebel
(Hochdrucklage) (Wien wolkenlos)
(Frontdurchgang, durchwegs bedeckt)
Gewitteraktivität
Gewitteraktivität
HERA-Fall konvektiver Niederschlag
HERA-Fall konvektiver Niederschlag
HERA-Fall konvektiver Niederschlag
Föhn
Föhn
Föhn
Föhn
Hochdruck, Winterstrahlungstest
H.W: BEW: 0,6,1
H.W: BEW: 0,0,0
H.W: BEW: 1,0,0- 1,3,4
Nebel od. Hochnebel
wolkenlos, Hochnebel
wolkenlos, Hochnebel
Hochdruck-QuellwolkenSchauer/Wärmegewitter
Hochdruck-QuellwolkenSchauer/Wärmegewitter
Hochdruck, sommerlich, subtropisch, labil
bzw. feuchtlabil
Startclim-zykl. Nordwestwetterlage
Startclim-zykl. Nordwestwetterlage
Startclim-zykl. Nordwestwetterlage
Startclim-Kaltlufttropfen
Startclim-Kaltlufttropfen
Startclim-Südstau
Startclim-Südstau
1
1
1
1
1
1
2
17
Erste Vergleichsrechnungen MM5 – Aladin
Um die von allen erarbeiteten Tools auch einem praktischen Test zu
unterziehen, wurde ein MM5-Setup festgelegt und damit für zwei
meteorologisch sehr interessante Episoden aus der MAP-SOP Simulationen
durchgeführt.
Festlegung der MM5- Parametrisierungen:
Folgende Parametrisierungsvorgaben für die MM5 Modellierung wurden
gemacht:
Radiation: RRTM longwave scheme IFRAD=4
PBL + SVAT: MRF + Noah land-surface scheme IBLTYP=5, ISOIL=2
Cumulus: Kain Fritsch 2 + ishallow ICUPA=8, ISHALLOW=1 (falls nötig)
Moisture: Reisner1 (Mixed-Phase) IMPHYS=5
Die Wahl dieser Parametersetups richtete sich zum einen nach der möglichen
Kombinationsfähigkeit dieser, zum anderen nach Empfehlungen von G.Zängl
(Zängl, 2004), der bereits zahlreiche hochaufgelöste MM5 – Simulationen im
Alpenraum durchführte und eine für komplexes Terrain verbesserte
Modellversion (Zängl, 2003) entwickelt hat. Die neuen Module dieser MM5
Version sollen in Kürze in die nächste offizielle MM5-Version übernommen
werden, wir haben die neue Version bereits bei uns am Institut installiert und
die Lauffähigkeit getestet. Ob diese Version deutliche Verbesserungen für
unsere Klimaanwendung erbringt soll in einem der in diesem Jahr folgenden
Tests überprüft werden, denn die Vorteile der neuen Methode liegen vor allem
bei Auflösungen im oder unter dem km-Bereich.
Festlegung der für diesen Test sinnvollen Termine:
Um die Effekte der Domaingröße und Wahl aufzuzeigen, sollten Episoden
gewählt werden, die viel Dynamik beinhalten. Da mit dem Aladin bereits die
gesamte MAP-SOP simuliert war, sollten die Episoden aus dieser Zeitperiode
entnommen werden.
Als meteorologisch interessante Episoden wurden die folgenden beiden
ausgewählt, wobei jeweils vorne weg noch zwei Tage mehr gerechnet
wurden, als so genannter Spin-Up, der bei der Evaluierung nicht
berücksichtigt wird.
Episode 1: 18.9.1999 – 21.9.1999
Episode 2: 5.11.1999 – 8.11.1999
Die Spin-Up Zeit des mesoskaligen Modells ist jene Zeitperiode, die
erforderlich ist, damit sich kleinräumige Strukturen aufgrund der spezifischen
Parametrisierungen sowie der besser aufgelösten unteren Randbedingung
entwickeln können. Erst nach diesem Zeitraum kann das Modell den Zustand
der Atmosphäre besser beschreiben als er bereits von den Antriebsdaten
vorgegeben ist.
18
Auswertung der Ergebnisse
Im folgenden Kapitel sollen nun erste Auswertungen der bisher
durchgeführten Rechnungen präsentiert werden. Zum einen sollen die Vorund Nachteile der verschiedenen Scores erläutert werden, zum anderen aber
auch ein erster Vergleich der Modelle. Auch auf die Wahl des Domainsetups
soll etwas detaillierter eingegangen werden, da ja für unterschiedlich große
Gebiete und mit unterschiedlichen Auflösungen simuliert wurde. Für die
zweite Episode erfolge ein Modellvergleich zwischen den potentiellen MM5Betreibern (ARC-SYS, BOKU-Met, IGAM), außerdem wurde für diese Episode
ein zusätzliches MM5-Domain festgelegt, welches jenem des ALADINModells ähnlich ist. Die Bezeichnung der diversen Domainsetups erfolgte so:
Alle Berechnungen die von ARC-SYS durchgeführt wurden haben Namen, die
mit A beginnen, die BOKU-Met-Berechnungen beginnen mit B und die AladinErgebnisse mit C. Mit dem Buchstaben D wurden die Ergebnisse des IGAM
bezeichnet. Da für die MM5-Berechnungen ursprünglich 4 verschiedene
Domainsettings vorgesehen waren heißen die Fälle der 1.Episode A001 bis
A004 und jene der 2.Episode A005-A008, Aladin hat nur 1 Setup, daher C001
für die 1.Episode und C002 für die 2.Episode. Die MM5-Aladindomain wurde
nachträglich mit A000 bezeichnet und bezieht sich auf die 2.Episode.
Die Auswertung mit den statistischen Parametern erfolgt auf einem Gebiet,
welches von allen Modellläufen abgedeckt wird, daher stellt das Aladinmodell
den limitierenden Faktor dar. Die Ergebnisse des Aladinmodells würden von
der Auflösung jenem der MM5-Nester entsprechen. Da diese aber nur den
Alpenraum, also das Zielgebiet der Klimamodellierung abdecken und bei der
Auswertung ein Vergleich mit den 1° aufgelösten ERA-40 Daten erfolgen soll,
wird vorerst die grobe MM5 Auflösung mit der feinen Aladin Auflösung
verglichen, weshalb bei diesem ersten Vergleich, der in erster Linie die
Methodik der Auswertung aufzeigen soll, immer die Aladinergebnisse besser
sind.
Um den Vergleich mit den grob aufgelösten ERA-40 Daten durchführen zu
können, werden die Modellergebnisse mittels Cressman-Interpolation auf das
1°-Gitter gebracht. Bei diesem Verfahren werden in einem vordefiniertem
Umkreis (in unserem Fall 90 km) alle Modellgitterpunkte, gewichtet mit der
Entfernung zum Zielgitterpunkt, gemittelt und liefern den neuen groben
Gitterpunktswert. Die Wahl des Cressman-Radius orientierte sich an der
gesuchten Zielauflösung. Bei 90 km Radius stehen immer genügend
Gitterpunkte zur Verfügung, um die Interpolation sinnvoll durchführen zu
können. Da bei der Auswertung nur ein Gebiet betrachtet wurde, welches von
allen Modelläufen abgedeckt wird, gehen die Randwerte der Modelle nicht in
die Auswertung mit ein. In Abbildung 4 ist dieses Gebiet als schwarzes
Rechteck dargestellt. Es reicht von 4°E – 30°E und von 36°N – 54°N.
19
Abb. 4: Definition des Evaluierungsbereichs. Alle statistischen Vergleichsparameter wurden
nur in dem mit dem schwarzen Rechteck begrenzten Gebiet berechnet, da dieses von
allen Modellen abgedeckt wird. Farblich hinterlegt ist hier ein Temperaturdifferenzfeld der
großen MM5-Domain.
Wie bereits bei der Evaluierungsstrategie angesprochen, sollen vorerst
folgende Parameter ausgewertete werden:
⎯
⎯
⎯
⎯
⎯
Temperatur in 850 hPa
Geopotential in 850 hPa
Geopotential in 500 hPa
Spezifische Feuchte in 700 hPa
Niederschlag
Für die ersten vier Parameter werden statistische Parameter zwischen dem
jeweiligen Modellergebnis und den ERA-40 Daten berechnet, für den
Niederschlag wird in einem ersten Schritt der prozentuelle Anteil der
Modellfläche betrachtet, in der über 0.5 mm Niederschlag in 6h gefallen sind
und dieser nur zwischen den einzelnen Modelläufen und mit keiner
Beobachtung verglichen. Anhand der Temperatur in 850 hPa sollen nun die
verschiedenen Tools diskutiert werden, für die übrigen Parameter finden sich
ähnliche Abbildungen und Tabellen im Anhang.
Detailierte Ergebnisdiskussion für die Temperatur in 850 hPa
Betrachtet man zunächst nur die 1.Episode und davon als ersten Schritt die
für die Gesamtperiode berechneten statistischen Werte so zeigt sich (siehe
Tabelle 3), dass alle Modelläufe recht ähnliche Mittelwerte liefern und diese
auch sehr gut zum Mittelwert der Temperatur des ERA40-Feldes passen.
Beim Bias erkennt man, dass die Temperatur in 850 hPa vom MM5 leicht
unterschätzt wird, während das Aladin einen leicht positiven Bias aufweist,
doch auch hier bewegen sich die Werte im 1/10 Grad-Bereich oder darunter,
weshalb man mit dem Ergebnis durchaus zufrieden sein kann. Der
Korrelationskoeffizient liegt auch in allen Läufen über 0.9 und auch die
Skillscores liegen fast beim Maximum von 1, weshalb man durchaus sagen
kann, dass die Temperatur in 850 hPa betrachtet über die gesamte Episode
von allen Modellen gut simuliert wurde.
20
Tab. 3:Statistikscores der 1.Episode für alle verfügbaren Modelläufe. A001-A004 entsprechen
den Vergleichen der 4 MM5-Domains mit den ERA40-Daten, C001 dem Vergleich AladinERA40. Bei den statistischen Parametern handelt es sich von oben nach unten um:
Mittelwert-Modell, Mittelwert-Era-40, Root-mean-square error (RMSE),
Standardabweichung-Modell, Standardabweichung-ERA-40, Korrelationskoeffizient (R),
Bias corrected RMSE (BCRMSE), relative BIAS (relBIAS), Bias-Score, Fisher-Score,
Totalscore, prozentuelle Modellfläche im Auswertegebiet in der über 0.5mm Niederschlag
gefallen sind (RR>0.5)
MOD-MEAN
ERA40-MEAN
RMSE
BIAS
MOD-STD
ERA40-STD
R
BCRMSE
REL.BIAS
B-SCORE
F-SCORE
T-SCORE
RR> 0.5[%]
A001
A002
A003
A004
C001
284.92
285.00
1.30
-0.08
3.30
3.40
0.93
1.30
-0.03
0.99
0.96
0.98
19.81
284.81
285.00
1.07
-0.19
3.33
3.40
0.95
1.06
-0.06
0.97
0.98
0.97
17.15
284.90
285.00
1.42
-0.10
3.24
3.40
0.91
1.41
-0.03
0.99
0.95
0.97
21.09
284.81
285.00
1.06
-0.20
3.29
3.40
0.95
1.05
-0.06
0.97
0.98
0.97
18.08
285.09
285.00
1.01
0.09
3.26
3.40
0.96
1.00
0.03
0.99
0.98
0.99
19.97
Will man sich nun auch ein wenig die Unterschiede der verschiedenen
Auflösungen ansehen, so empfiehlt es sich, die Werte jedes einzelnen
Prognosezeitschritts heranzuziehen, da sich manche statistischen Parameter
über die gesamte Episode wieder ausgleichen können. In Abbildung 5 ist der
Fisher-Skillscore für jeden Prognosezeitschritt dargestellt. Zeitschritt 1
kennzeichnet die ersten 6 Stunden des dritten modellierten Tages, da 2 Tage
Spinup vorne weg nicht ausgewertet werden.
Bei diesem Score sieht man bereits recht schön den Effekt der Domaingröße,
denn die beiden untersten (und somit schlechtesten) Kurven sind jene der
größten Domain und die überwiegend oberste Kurve ist jene des
Aladinmodells. Dennoch sollte man auch hier nicht außer Acht lassen, dass
alle Werte zwischen 0.92 und 0.99 liegen, also wirklich sehr gut sind. Die
Knicke in den Kurven deuten ein wenig an, dass es die Modelle bei dieser
dynamischen Wetterlage nicht immer schaffen, die Feinstrukturen im Inneren
sofort richtig zu reproduzieren.
21
Abb. 5: Fisher-Skillscore berechnet zwischen den jeweiligen Era-40 Gitterpunkten und den
dort hin interpolierten Modellwerten. Dargestellt ist der Wert für jeden Prognosezeitschritt,
also alle 6 Stunden.
Als einen weiteren Parameter für die zeitliche Entwicklung der Modelgüte
wollen wir uns den Bias-Skillscore (Abbildung 6) anschauen. Dieser gibt
Auskunft darüber, ob ein Modell im Mittel zu kalt oder zu warm ist; er soll
hauptsächlich dazu dienen, um rasch zu erkennen, ob sich ein Modell immer
weiter von der Realität entfernt, es also langsam davon driftet. Dieser Aspekt
wird bei einem später folgenden Klimalauf von Bedeutung, bei einer
Berechnung über 1 Woche sollte dieses Phänomen noch nicht auftreten.
Betrachtet man nun die Kurven in Abbildung 5 so fällt auf, dass alle MM5
Läufe, egal welches Domainsetup, sehr ähnlich verlaufen, hingegen das
Aladinmodell einen anderen Charakter aufzeigt. Wie wir schon bei der
Berechnung der Statistikwerte über alle Zeitschritte gesehen haben, sind die
Modellergebnisse durchaus sehr gut, weshalb diese Schwankungen hier von
einem Zeitschritt zum nächsten wohl eher ein Schwingen um den
Grundzustand darstellen, denn wenn der Wetterablauf, bei dieser sehr
dynamischen Wetterlage ein wenig zu schnell oder zu langsam prognostiziert
wird, wirkt sich dies im Bias des jeweiligen Zeitschritts aus. In Summe über
den gesamten Prognosezeitraum gleichen sich solche marginalen
Schwankungen wieder aus und können vor allem für den Klimalauf außer
Acht gelassen werden.
22
Abb. 6: Bias-Skillscore berechnet zwischen den jeweiligen Era-40 Gitterpunkten und den
dorthin interpolierten Modellwerten.
Abb. 7: Vergleich zwischen Aladinprognose und ERA-40 Feld. Links für den 12.Zeitschritt der
Episode, rechts für den 13.. Im oberen Teil der Abbildung ist immer das Differenzfeld
(ERA-Aladin) dargestellt, wobei grüne Farben unterschiede kleiner 1°C darstellen, blaue
(kühle) Farben negative Werte und rote (warme) Farben positive Werte. Im unteren Teil
der Abbildung ist jeweils das ERA-40 Feld des jeweiligen Zeitschritts dargestellt.
Um die Tatsache aufzuzeigen, dass es sich bei den Signalen im Bias-Score
wirklich nur um ein Schwanken um die Nulllage handelt, sollte man sich
zumindest einige meteorologische Felder genauer ansehen. Dazu ist es
nützlich, Differenzfelder zu untersuchen. In Abbildung 7 sind diese für die
23
Zeitschritte 12 und 13 der Episode dargestellt, wobei im Vergleich dazu auch
immer im Bild darunter das ERA-40 Feld abgebildet ist, um die Streuung in
diesem Feld, die ja auch für die Scoreberechnung berücksichtig wird, ein
wenig abschätzen zu können. Der Untersuchungssauschnitt, in dem die
statistischen Parameter berechnet wurden, ist mit dem schwarzen Rechteck
gekennzeichnet. Man erkennt sehr schön, dass im linken oberen Bild, also
dem Differenzbild von Zeitschritt 12, ausschließlich grüne und blaue Farbtöne
vorkommen. Diese Farben signalisieren, dass die Temperatur im Aladinfeld
größer als jene im ERA40-Feld ist und daher die Differenz nahe Null (grün)
bis negativ (blau) ist. Im rechten oberen Teil der Abbildung überwiegen eher
die wärmeren Farbtöne, was erkennen lässt, dass die Aladintemperatur etwas
niedriger ist als jene im ERA-40 Feld. In den beiden ERA-40 Feldern erkennt
man das Ende der Föhnperiode und die von Westen herannahende Kaltfront.
Wie man an den Differenzbildern schön erkennt ist der Bias im Zeitschritt 12
negativ, im Zeitschritt 13 positiv, das Modell driftet also nicht davon.
Zur Darstellung eines Gesamtbildes der 1. Episode können wir den TotalSkillscore (Abbildung 8) hernehmen, denn dieser vereinigt den FisherSkillscore und den Bias-skillscore zu einem Wert, wobei der Fisher-Score
doppeltes Gewicht bekommt. Zum einen spiegelt sich darin der sprunghafte
Charakter des Bias-Scores, zum anderen aber auch der mit zunehmender
Prognosedauer stattfindende Abfall der Prognosegüte, wie dies bereits in den
beiden einzelnen Scores zu sehen war. Da die 4 verschiedenen MM5Ergebnisse (A001-A004) zu jedem Zeitschritt einen sehr ähnlichen Bias-Score
aufweisen, rücken die Kurven beim Total-Skillscore im Vergleich zum FisherSkillscore ziemlich nahe aneinander, weshalb es in solch einem Fall, wo man
schon weiß, dass es im Bias kaum Unterschiede gibt, nahe liegender
erscheint, gleich den F-Score zu betrachten, um die Unterschiede der
einzelnen Modelläufe klarer zu erkennen. Zieht man nun den Total-Skillscore
dazu heran, um zu entscheiden welcher Modellauf verglichen mit den ERA-40
Daten die besten Ergebnisse liefert, so erkennt man in Abbildung 7, dass dies
vom treibenden Wettercharakter abhängig ist und die verschiedenen Modelle
(Aladin, MM5) bei manchen Zeitschritten besser und bei anderen schlechter
sind. Der starke Abfall des T-Scores für das Aladinmodell am Ende der
Rechenperiode ist zum Großteil auf den Bias-Score-Abfall zurückzuführen.
Hier muss man dann ins Detail schauen und erkennt, dass in den MM5Feldern innerhalb des Auswertegebiets stark positive und ziemlich gleich stark
negative Werte auftreten, weshalb der Bias über das Feld gemittelt sehr klein
wird. Beim Aladin treten keine derart starken Unterschiede zu den Era-40
Daten auf, aber eben eher in eine Richtung und nicht zu gleich positiv und
negativ, weshalb der Gesamtbias des Felds größer wird. Nochmals sei hier
darauf hingewiesen, dass der Bias-Skillscore hauptsächlich für die
Klimaanwendung entwickelt wurde, um ein mögliches Davondriften des
Modells erkennen zu können.
24
Abb. 8: Total –Skillscore für die erste Episode. Dargestellt ist der Wert zu jedem
Prognosezeitschritt also alle 6 Stunden. A001-004 bezeichnen die vier MM5-Ergebnisse,
C001 das Aladinergebnis.
Abschließend kann man feststellen, dass beide Modelle durchaus in der Lage
sind, den Wettercharakter der Era-40 Daten widerzuspiegeln. Welcher
Modellauf das bodennahe Wetter am besten simuliert, sollte in einem
weiteren Schritt, zum Beispiel mittels VERA-Analysen von Stationsdaten,
ermittelt werden. Aus dem Vergleich mit den ERA-40 Daten erkennt man,
dass es von Zeitschritt zu Zeitschritt gelegentlich zu schwachen
Phasenverschiebungen zwischen den Modellen und den Era-40 Daten
kommt, was im Bias ersichtlich ist. Generell zeigt sich weiters, dass im
Vergleich mit ERA-40 Daten die Größe der Rechendomain entscheidend ist.
Wie im F-Score klar ersichtlich ist, werden die Resultate umso besser, je
kleiner die Rechendomain ist, also je näher der Rand an der Auswertedomain
liegt.
Wechseln wir nun zur 2. Episode, wo auch die MM5-Vergleichsrechnungen
des IGAM (D005) und der BOKU-Met (B005) mit ausgewertet wurden. Diese
Wetterphase ist zum einen durch viel Dynamik, zum anderen durch
Zyklogenese im Modellgebiet dominiert.
Als ersten Schritt empfiehlt es sich wieder die statistischen Werte berechnet
über die gesamte Evaluierungsperiode anzuschauen.
In Tabelle 4 sind diese Werte eingetragen. Bereits bei den Mittelwerten über
das ganze Feld und alle Zeiten erkennt man, anders als dies bei der
vorherigen Episode der Fall war, Unterschiede zwischen den Modelläufen und
den ERA-40 Daten um bis zu 0.6°C.
25
Der Korrelationskoeffizient ist bei allen MM5-Läufen unter 0.9 gesunken und
liegt nur beim Aladin und dem Aladin-Vergleichslauf über diesem Wert. Diese
beiden Läufe sind auch die Einzigen, welche einen sehr guten Bias-Skillscore
aufweisen.
Tab.4: Statistikscores der 2.Episode für alle verfügbaren Modelläufe. A005-A008 entsprechen
den Vergleichen der 4 MM5-Domains mit den ERA40-Daten, C002 dem Vergleich AladinERA40. A000 bezeichnet die mit MM5 nachgerechnete Aladindomain und bei den Spalten
B005 und D005 handelt es sich um die Vergleichsrechnungen der BOKU und des IGAM.
Bei den statistischen Parametern handelt es sich um die gleichen wie in Tabelle 1.
A005
MOD-MEAN
ERA40-MEAN
RMSE
BIAS
MOD-STD
ERA40-STD
R
BCRMSE
REL.BIAS
B-SCORE
F-SCORE
T-SCORE
RR> 0.5[%]
B005
277.96 278.09
277.49 277.49
2.00
1.96
0.47
0.60
2.64
2.68
3.35
3.35
0.82
0.83
1.94
1.87
0.14
0.18
0.83
0.76
0.86
0.87
0.85
0.81
21.75 21.55
D005
277.74
277.49
2.11
0.25
2.49
3.35
0.78
2.09
0.08
0.95
0.82
0.88
25.21
A006
A007
A008
A000
C002
277.72
277.49
1.58
0.23
2.98
3.35
0.89
1.56
0.07
0.95
0.93
0.94
20.87
278.06
277.49
2.06
0.58
2.61
3.35
0.81
1.98
0.17
0.77
0.85
0.81
23.12
277.64
277.49
1.54
0.16
3.08
3.35
0.89
1.53
0.05
0.98
0.94
0.96
22.19
277.55
277.49
1.52
0.07
3.27
3.35
0.90
1.52
0.02
1.00
0.95
0.97
23.49
277.49
277.49
1.20
0.00
3.21
3.35
0.94
1.20
0.00
1.00
0.97
0.98
27.75
Bereits bei der Betrachtung dieser für die gesamte Episode gültigen Werte
erkennt man, dass die Modelle den Wettercharakter nicht so gut treffen wie
dies bei der zuvor betrachteten Wetterlage der Fall war. Woran dies liegt, ob
also einzelne Zeitschritte das Ergebnis negativ beeinflussen, oder ob die
Modellqualität in diesem Fall generell auf einem niedrigeren Niveau
angesiedelt ist wird bei der Betrachtung einzelner Parameter für jeden
Zeitschritt extra verdeutlicht.
Bei Betrachtung des F-Scores (Abbildung 9) spalten sich die Ergebnisse
bereits nach wenigen Zeitschritten deutlich auf. Bis zum 4. Zeitschritt liefern
alle Modellergebnisse ziemlich ähnlich gute Scorewerte, doch ab diesem
Zeitschritt spalten sich zum einen die Läufe mit verschiedenen MM5Domaingrößen auf und zum anderen beginnen die Modellierungen mit dem
Aladin bzw. dem MM5-Aladindomain an Güte zu gewinnen.
Ein weiterer auffälliger Punkt in Abbildung 9 sind die doch erheblichen
Unterschiede zwischen den als ident angenommenen MM5-Modellierungen
(A005, B005, D005). Der permanente Abfall des Skillscores für den D005Lauf lässt die Vermutung aufkommen, dass hier nicht alle einzustellenden
Parameter des MM5 gleich verwendet wurden wie bei den Läufen A005 bzw.
B005 die doch weit ähnlicher, wenn auch nicht exakt gleich verlaufen. Da die
wählbaren physikalischen Parametrisierungen des MM5 bei allen drei Läufen
gleich gewählt wurden, liegen die Unterschiede möglicherweise an der
unterschiedlichen Aufbereitung der Inputdaten die das MM5 benötigt. Hier
sind drei verschiedene Postprozessorschritte nötig, wobei es bei jedem einige
26
Feineinstellungen gibt. Dass die Läufe mit dem großen Domains in diesem
Fall so stark abfallen, liegt daran, dass es das Modell nicht schafft eine
Tiefdruckentwicklung, die im Inneren des Modellgebiets stattfindet richtig zu
simulieren (Abb. siehe Anhang). Bei den übrigen MM5-Läufen sind die
Domaingrößen gerade so, dass der Randeinfluss noch ausreicht, um die
Tiefdruckentwicklung zumindest in abgeschwächter Form von außen ins
Modell zu bringen. Da man von einem mesoskaligen Modell erwarten sollte,
dass das im Inneren generierte Wetter besser mit der Realität übereinstimmt,
als jenes des treibenden groben Modells, kann davon ausgegangen werden,
dass die gewählten physikalischen Parametrisierungen für diesen
Wetterablauf unzureichend sind. Aufgrund dieses Phänomens haben wir
beschlossen mit dem MM5 auch noch das Aladindomain nachzurechnen, um
den direkten Vergleich der beiden Modelle fairer zu machen. Bei der
Beurteilung aller in diesem Bericht folgenden Ergebnisse des MM5Aladinlaufs (A000) sollte man nicht vergessen, dass dieser mit einer
Auflösung von 30 km gerechnet wurde und erst das darin liegende Nest (über
den Alpen) mit 10 km Auflösung gerechnet ist, hingegen das Aladinmodell im
gesamten Evaluierungsausschnitt eine Auflösung von 12.5 km aufweist.
Abb. 9: Fisher-Skillscore berechnet zwischen den jeweiligen Era-40 Gitterpunkten und den
dort hin interpolierten Modellwerten. Dargestellt ist der Wert für jeden Prognosezeitschritt,
also alle 6 Stunden für die 2. Episode (5.11.1999 – 8.11.1999).
Die Untersuchung des Bias-Skillscores (Abbildung 10) zeigt, dass die
Mehrzahl der Modelläufe zum Zeitschritt 4 und 5 ein Problem damit haben,
der starken Dynamik des Era-40 Feldes zu folgen. In den Zeitschritten 6 bis 8
dürfte sich der Wettercharakter wieder ein wenig beruhigen, da eigentlich alle
Modelle einen über das Feld gemittelten sehr guten Bias vorweisen. Gegen
Ende der Wetterlage, wo im Modellinneren eine Tiefdruckentwicklung
stattfindet, driften die MM5 Läufe mit der großen Domain davon, da sie diese
Entwicklung nicht erkennen und daher ein zu warmes Feld prognostizieren.
Die MM5-Läufe, welche für die kleinere Domain gerechnet wurden (A006,
27
A008), erfassen die Tiefdruckentwicklung zum Teil, weshalb der Score gegen
Ende nicht weiter abfällt. Das Aladinmodell (C002) hingegen kann sich fast
zur Gänze von diesem Einbruch im Score erholen und auch der MM5-AladinVergleichslauf (A000) erfasst diese Wetterentwicklung einigermaßen
zufriedenstellend.
Abb. 10: Bias-Skillscore berechnet zwischen den jeweiligen Era-40 Gitterpunkten und den
dort hin interpolierten Modellwerten. Dargestellt ist der Wert für jeden Prognosezeitschritt,
also alle 6 Stunden für die 2. Episode (5.11.1999 – 8.11.1999).
Werfen wir abschließen noch einen Blick auf den Total-Skillscore (Abbildung
11) so erkennen wir den Abfall der MM5-Läufe für die große Domain am
Beginn des letzten Drittels des Prognosefensters sehr deutlich. Der Score
sinkt gegen Ende der Episode auf 0.5 ab, weshalb man hier nicht mehr von
einer gelungenen Prognose sprechen kann. Bei dieser Wetterlage ist
eindeutig die Größe der verwendeten Domain von entscheidender
Bedeutung, weshalb das Aladinmodell am besten abschneidet, aber auch das
MM5-Modell gerechnet für die Aladindomain ganz gute Ergebnisse liefert. Die
Wetterlage scheint eine große Modellherausforderung darzustellen, denn
auch die operationelle Prognose des ECMWF hat die genaue
Tiefdruckentwicklung, die das MM5 bei großem Domainsetup nicht richtig
erfasst, erst wenige Tage vorher einigermaßen korrekt prognostiziert. Da man
alle Modelle nahezu mit der Wirklichkeit treibt (ERA-40 Daten) werden die
Ergebnisse immer besser je näher man mit diesen Daten an das
Evaluierungsgebiet rückt, also die Domain verkleinert. Das mesoskalige
Modell hat in diesem Fall dann weniger Möglichkeiten eine „falsche“ eigene
Wetterentwicklung zu simulieren. Ein geeigneter Test, um die Domaingröße
objektiv abschätzen zu können, also zu erkennen, ab welcher Größe das
MM5 in der Lage ist bessere Strukturen zu produzieren als jene die von
28
außen vorgegebne werden (bei den ERA-40 Daten ist dies über Europa
eigentlich fast nicht mehr möglich) würde darin bestehen, dass MM5 mit einer
ECMWF - Prognose passender Auflösung (T106) zu betreiben und dann die
Ergebnisse mit Messwerten zu vergleichen.
Nachdem die Temperatur in 850 hPa bei der ersten betrachteten Episode
sehr gut von den Modellen reproduziert wurde, ist dies bei der zweiten
Episode nicht mehr so eindeutig der Fall. Das Aladin liefert hier bei der
Temperatur zwar die besten Resultate, dies liegt aber auch daran, dass
sowohl die Domaingröße als auch die Auflösung am feinsten sind und daher
die „Wahrheit“ der treibenden Randdaten (ERA-40) ihren Einfluss bis ins
Evaluierungsgebiet habt.
Abb. 11: Total-Skill Score des Parameters Temperatur in 850hPa für die 2.Episode. Die mit A
beginnenden Abkürzungen bezeichnen die MM5-Berechnungen von ARC-Sys; B005 jene
der BOKU-Met und D005 die Berechnung des IGAM. C002 ist das Ergebnis der
Aladinvalidierung dieser Episode.
Geopotential in 850 hPa
Für das Geopotential und alle weiteren zu betrachtenden Parameter wollen
wir nur mehr den Total-Skillscore betrachten. Die Tücken bei der
Interpretation dieser Größe wurden bereits bei der Temperatur anhand der
Einzelscores erläutert. In Abbildung 12 sehen wir die Scores für die erste
Episode. Recht deutlich zu erkennen ist der Unterschied zwischen den
verschiedenen MM5-Domaingrößen.
29
Abb. 12 Total Skillscore des Parameters Geopotential der 850 hPa Druckfläche für die
Episode 1.
Auch hier ist wiederum die große Domain schlechter als die kleinere, was am
selben Phänomen wie bei der Temperatur, nämlich den Treiberdaten liegt. Ob
nun eine feinere Auflösung bessere Ergebnisse liefert oder doch eine gröbere
ist hingegen nicht erkennbar, denn bei den kleineren Domains (A002/A004)
liefert die feinere Auflösung die besseren Ergebnisse, hingegen bei den
großen Domains (A001/A003) die Gröbere. Diese Entscheidung muss
letztendlich beim Vergleich mit Messwerten (z.B. VERA) erfolgen. Das Aladin
kann diese Wetterlage scheinbar wieder perfekt reproduzieren, zumindest
was den Vergleich mit den ERA-40 Daten betrifft.
Bei der zweiten Episode (Abbildung 13) sehen wir ein ähnliches Bild, wie wir
es schon bei der Temperatur hatten. Man erkennt auch hier recht deutlich den
dramatischen Abfall der Prognosegüte der MM5-Läufe gegen Ende des
Vorhersagefensters. Anders als bei der Temperatur ist beim Geopotential der
850 hPa Druckfläche der MM5-Lauf der BOKU-Met der schlechteste und jener
des IGAM zeigt relativ gute Werte an. Betrachtet man so wie bei der
Temperatur nur die Felder der verschiedenen MM5-Betreiber (A005, B005
und D005) so erkennt man, dass beim Geopotential das Ergebnis des IGAM
sehr gut ist, hingegen jenes von BOKU-Met am schlechtesten. Die Tatsache,
dass der Skillscore unterschiedlicher meteorologischer Parameter nicht immer
beim gleichen Modellbetreiber am schlechtesten ist, lässt erkennen, dass
nicht nur die unterschiedliche Hardware (IGAM, BOKU), sondern sehr wohl
verschiedene Modellsetups oder auch Aufbereitung der Inputdaten zu den
unterschiedlichen Ergebnissen führten.
30
Abb. 13: Total Skillscore des Parameters Geopotential der 850 hPa Druckfläche für die
Episode 2.
Geopotential in 500 hPa
Da die Skillscore-Auswertung des Geopotentials der 500 hPa Druckfläche
keinen gravierenden Unterschied zu jener der 850 hPa Druckfläche aufweist,
wird diese hier nicht näher erläutert. Die entsprechenden Abbildungen der
diversen Skillscores sind der Vollständigkeit wegen im Anhang zu diesem
Bericht enthalten, sollen hier aber nicht näher diskutiert werden.
Spezifische Feuchte in 700 hPa
Die spezifische Feuchte in 700 hPa repräsentiert einen meteorologischen
Parameter, an dem man sehr schön frontale Systeme erkennen kann. Da die
Lage von solchen Systemen oft auch vom operationellen
Wettervorhersagemodell nicht exakt getroffen wird, sollte man dies auch nicht
von unseren hier validierten Modellen erwarten, schon gar nicht dann, wenn
noch kein optimales Parametersetup gefunden wurde. Am Total-Skillscore in
Abbildung 14 für die Episode 1 und Abbildung 15 für die Episode 2 sieht man
bereits, dass dieser meteorologische Parameter losgelöst von den übrigen ist,
denn weder der starke gebündelte Abfall der Episode 2 ist hier zu erkennen,
noch der recht homogene Lauf der Episode 1 wie dies bei den anderen
Parametern der Fall war. Der Total-Skillscore der spezifischen Feuchte zeigt
auch nur bedingt den Vorteil der kleineren Domain an und zwischen den
unterschiedlichen Gitter-Auflösungen (45km/30km) kommt auch kein
deutlicher Unterschied heraus. Signifikant in den beiden Abbildungen (14 und
15) ist hingegen der Tagesgang im Total-Skillscore der spezifischen Feuchte
des Aladin-Modells. Immer um 00 UTC erreicht der Skillscore seinen
Maximalwert von 1. Dieses Phänomen sollte in weiteren Tests im Auge
behalten werden und mit den Modellbetreibern diskutiert werden. Da der
Niederschlag eine wichtige Zielgröße ist, wollen wir uns als letzten Parameter
diesen anschauen.
31
Abb. 14: Total Skillscore der spezifischen Feuchte der 700 hPa Druckfläche für die Episode 1.
Abb. 15: Total Skillscore der spezifischen Feuchte der 700 hPa Druckfläche für die Episode 2.
Niederschlagsverteilung
Bei der Niederschlagsverteilung innerhalb des Feldes wurde keiner der oben
definierten traditionellen statistischen Werte berechnet, sondern einfach die
Anzahl der Gitterpunkte, an denen mehr als 0.5mm Niederschlag gefallen
sind, in Relation zur gesamten Gitterpunktsanzahl gesetzt. Der Wert auf der yAchse der Abbildungen 16 und 17 stellt also den Flächenanteil des
Evaluierungsgebiets dar, in dem Niederschlag gefallen ist. Die starken
Unterschiede der verschiedenen Modellbetreiber zum 1.Zeitschritt lassen sich
damit erklären, dass beim MM5 aus akkumulierten Werten 6h-Werte
rückgerechnet werden mussten und daher der 1.Wert von den davor
32
gefallenen Niederschlagsmengen und der Methode der Deakkumulierung
abhängt. Diese erfolgte derzeit offensichtlich nicht. Abgesehen davon passen
die Kurven der verschiedenen Modelläufe sehr gut zusammen, weshalb man
sagen kann, dass alle in etwa gleich viel Niederschlag im Evaluierungsgebiet
fallen lassen, ob hingegen auch die räumliche Verteilung passt, muss mit
Beobachtungen verglichen werden und kann aus diesem ersten Test nicht
abgeleitet werden. Dieser Punkt wird speziell für die Wahl der physikalischen
Parametrisierungen von Konvektions- und Feuchteregime wichtig.
Abb. 16: Flächenanteil des Gebiets mit Niederschlag für die Episode 1.
Abb. 17: Flächenanteil des Gebiets mit Niederschlag für die Episode 2.
33
Rechenzeit
Ein wesentlicher Punkt bei der Beurteilung der verschiedenen Modelläufe ist
die dafür benötigte Rechenzeit. Diese richtet sich zum einen nach der Anzahl
der verwendeten Gitterpunkte und zum anderen nach dem Zeitschritt mit dem
man das Modell betreibt. Selbstverständlich hängt sie auch von der
verwendeten Computerinfrastruktur und den verwendeten
Modellparametrisierungen ab. Für das Aladinmodell wurde das Domain-Setup
bereits ausgewählt. Beim Modell MM5 ist der Faktor Rechenzeit ein
wesentlicher Teil der Evaluierung und wird sicherlich mitentscheidend sein,
welche Domain für die Klimaläufe verwendet werden wird. Man hat nicht viel
von einem Modell, welches exakt das aufgetretene Wetter simulieren kann,
dafür aber länger braucht, als der Simulationszeitraum ist. Für
Klimaanwendungen, bei denen ja mehrere Jahre gerechnet werden sollen,
sollte das verwendete Modell in der Lage sein, um einiges schneller als realtime zu rechnen. In Tabelle 5 sind die verschiedenen Rechenzeiten der
einzelnen Läufe aufgelistet. Die Fälle A001-004 betreffen die erste Episode
die Zeilen A005-A008 die zweite. Will man also die beiden Episoden
vergleichen, um zu sehen welchen Einfluss die jeweilige Wetterlage auf das
Ergebnis hat, so kann man Lauf A001 mit A005, A002 mit A006 usw.
vergleichen. Bei drei der vier Domain-setups erkennt man, dass die Episode 2
ein wenig rechenintensiver war, lediglich beim dritten Setup ist dies
umgekehrt. In diesem Fall kann man davon ausgehen, dass der Rechner
beim dritten Lauf der Episode 1 (A003) nicht immer ausschließlich für die
Modellierung verwendet wurde und daher die Episode 2, die vielleicht über
das Wochenende gerechnet wurde, schneller fertig war. Generell betrachtet
ist der Unterschied zwischen den beiden Episoden in einer Größenordnung
die man bei der Evaluierung vernachlässigen kann. Betrachtet man nun die
Unterschiede der verschiedenen Domainsetups (A001 – A004) so treten doch
erhebliche Rechenzeitunterschiede auf. Die Berechnung der kleineren
Domain ist im Vergleich zur größeren bei gleicher Auflösung (z.B. A002/A001)
um ca. 30% früher fertig, während die Berechnung mit feinerer Auflösung bei
gleicher Domaingröße etwa 3.5x so lange dauert wie die mit grober
Auflösung.
Tab. 5: Rechenzeit der verschiedenen Simulationen: Die Modelläufe A000-A008 wurden alle
vom ARC-Sys durchgeführt und immer die gleiche Infrastruktur verwendet. A001-A004
sind die Läufe für die 4 versch. Domains der 1.Episode, A005-A008 jene der 2.Episode.
D005 ist das Ergebnis des IGAM und B005 jenes von BOKU-Met.
Modellauf Laufzeit (h)
A001
A002
A003
A004
A005
A006
A007
A008
A000
D005
B005
3.4
2.5
11.9
8.7
3.6
2.6
11.4
9.1
6.4
6.9
17.6
Infrastruktur
Compaq ES40 6/667 Model 1 (4CPUs
(Alpha), 667 MHz, 2GB Memory,
True64Unix 5.1.
Athlon MP1800 - 2CPUs
Intel XEON 1700 - 1CPU, Redhat-7.1
34
Synopsis – Schlussfolgerungen
Abschließend kann festgestellt werden, dass die MM5-Läufe von ARC-SYS,
IGAM und BOKU-Met trotz scheinbar gleichem Modellsetup unterschiedliche
Resultate geliefert haben, was als nächster Schritt sicher einer Klärung
bedarf.
Als weiterer Punkt kann festgestellt werden, dass die ERA-40 Daten schon
dermaßen gut die Realität wieder geben, dass eine Aussage über die nötige
Domaingröße mit diesen Tests nicht möglich ist, da man bei kleinerer
Domainwahl mit der treibenden Realität (ERA-40) näher am
Evaluierungsgebiet ist und damit zwangsläufig die Resultate bei kleinerer
Domainwahl besser werden. Zieht man nun daraus den Schluss, das die
kleinstmögliche Domain, die besten Resultate liefert, so mag dies für ERA-40
Daten über Europa zutreffen, da sie fast das reale Wetter widerspiegeln.
Betreibt man die Modelle später hingegen mit Klimaänderungsszenarien, so
sollte das regionale Modell in der Lage sein, Phänomene wie beispielsweise
die Tiefdruckentwicklung im Modellinneren ohne genaue Vorgaben von außen
selbstständig zu simulieren. Mit den Parametersetup der Episode 2 ist dies
noch nicht gelungen.
Ausblick – weitere Schritte
Um ein für Klimaanwendungen optimales Modellsetup zu finden ist aus
unserer Sicht nun folgende Vorgehensweise sinnvoll:
Zuerst gilt es die Ursachen des Unterschieds zwischen den Ergebnissen von
ARC-SYS, BOKU-Met und IGAM zu klären und möglicherweise nach erfolgter
Übereinstimmung des Set-ups einen neuerlichen Test zu rechnen, um zu
sehen ob und wenn ja welcher Unterschied alleine Hardware-bedingt auftritt.
Als weiterer Schritt, um die MM5- Ergebnisse konsistent zu machen, sollte die
Niederschlagsdeakkumulierung vereinheitlicht werden, so dass die Werte
bereits ab dem 1. Zeitschritt der Evaluierungsperiode zur Verfügung stehen.
Für den Test mit der MM5-Aladindomain-Version muss man sich überlegen,
wie man darin das Nest legt, da ja nur dieses in der feinen Auflösung von 10
km gerechnet wird. Da die äußere Domain ja doch um einiges kleiner als die
übrigen MM5-Domains ist, stellt sich die Frage, ob man dann das Nest nicht
ähnlich groß wie die äußere Domain ansetzt, damit das Evaluierungsgebiet
(siehe Abbildung 4) und damit der ehrliche Vergleich mit dem Aladin für
großräumige Vergleiche nicht zu klein wird.
Sind diese eher schnell zu entscheidenden Fragen geklärt, sollte ein
geeigneter Test zur definitiven Entscheidung, welches Domain-Setup, die
besten Resultate liefert, erfolgen. Dieser könnte zum Beispiel so wie schon
weiter oben beschrieben derartig aussehen, dass man das mesoskalige
Modell mit einer ECMWF - Vorhersage verringerter Auflösung betreibt und
dann anhand von Stationsdaten oder ERA-40 auswertet, welches Setup die
besten Resultate liefert. Ob man für diesen Test Daten des ECMWF-
35
Ensembles heranzieht und ob solche Daten leicht als MM5-Input aufbereitet
werden können oder ob es noch andere leicht verfügbare brauchbare Daten
gibt, soll mit allen Projektpartnern diskutiert werden.
Ist die Domainlage und die Anzahl bzw. Lage der Niveaus des MM5-Modells
entschieden, sollte als nächster Test ein Vergleich mit dem von Günther Zängl
modifiziertem MM5 erfolgen. Dieser Vergleichstest kann gleichzeitig zum
Austesten der Grenzschichtparametrisierung herangezogen werden und wird
vom BOKU-Met durchgeführt.
Um zu einer Finalversion des MM5-Setups für Klimamodellierung im
Alpenraum zu kommen, sind zahlreiche Testrechnungen mit
unterschiedlichen physikalischen Parametrisierungen erforderlich. Aufgrund
der vorgegebenen Termine sind bereits Episoden bekannt, an Hand deren
Wetterverläufe die Tests zügig voran gehen sollten. Da sämtliche Tools zur
Evaluierung bereits entwickelt wurden, bedarf es zur optimalen Auswertung
noch des Schritts der Automatisierung. Aus diversesten Gründen ist es bisher
noch nicht gelungen, Modellergebnisse, unmittelbar nachdem die
Berechnungen abgeschlossen wurden, in geeigneter Weise für andere
Projektpartner verfügbar zu machen und diese sofort über die Verfügbarkeit
der Daten zu verständigen. Dieser Prozess bedarf zum einen einer stabilen
Austauschplattform (FTP-Bereich), zum anderen einer klaren Definition
welche Daten wer für wen bereitstellt. Beides sollte in einem kommenden
Workshop diskutiert und fixiert werden.
36
Literatur
Crescenti, G. H. (1997): A look back on two decades of Doppler sodar comparison
studies. Bull. Amer. Meteor. Soc. 78(4), 651–673.
Grell G.A., Dudhia J. and Stauffer D.R. (1994): A description of the fifth-generation
Penn State/NCAR Mesoscale Model (MM5). NCAR technical note TN-398+STR, 122
pp., National Center for Atmospheric Research, Boulder, CO, USA.
Hanna, S. R. and R. J. Paine (1989): Hybrid Plume Dispersion Model (HPDM),
development and evaluation. J. Appl. Meteorol. 28(2), 206–224.
Kållberg, P., A. Simmons, S. Uppala and M. Fuentes:
The ERA-40 archive. ERA-40 Project Report Series No. 17 September 2004
Klug,W., G. Graziani, G. Grippa, D. Pierce, and C. Tassone (1992): Evaluation of
Long Range Atmospheric Transport Models Using Environmental Radioactivity Data
from the Chernobyl Accident: The ATMES Report. Elsevier Applied Science, London,
366 pp.
Mosca, S., R. Bianconi, R. Bellasio, G. Graziani, andW. Klug (1998a): ATMES II –
Evaluation of long-range dispersion models using data of the 1st ETEX release. EUR
17756 EN, Office for Official Publications of the European Communities, L-2985
Luxembourg, 459 pp. + app.
Mosca, S., G. Graziani, W. Klug, R. Bellasio, and R. Bianconi (1998b): A statistical
methodology for the evaluation of long-range atmospheric dispersion models: an
application to the ETEX exercise. Atmos. Environ. 32(24), 4307–4327.
Sachs, L. (1992): Angewandte Statistik. Springer-Verlag, Berlin, 846 pp.
Pichler, H. and R. Steinacker (1975): Zur Frage der Zyklogenese in den mittleren
Breiten unter Ber¨ucksichtigung von freiwerdender Kondensationsw¨arme. Arch. Met.
Geoph. Biokl. A24, 117–129.
Steinacker, R., C. Häberli, W. Pöttschacher (2000): A Transparent Method for the
Analysis and Quality Evaluation of Irregularly Distributed and Noisy Observational
Data. Monthly Weather Review, 128, 2303-2316
Stohl, A., M. Hittenberger, and G. Wotawa (1998): Validation of the Lagrangian
particle dispersion model Flexpart against large-scale tracer experiment data. Atmos.
Environ. 32(24), 4245–4264.
Taylor, K. E. (2001): Summarizing multiple aspects of model performance in a single
diagram. J. Geophys. Res. 106(D7), 7183–7192.
Zängl, G. (2003): A generalized sigma coordinate system for the MM5, Mon. Wea.
Rev., 131, 2875-2884.
Zängl, G., L. Gantner, G. Hartjenstein, and H. Noppel (2004): Numerical errors above
steep topography: A model intercomparison, Meteorol. Zeitschrift, 13, 69-76
37
Bildanhang
Im folgenden Bildanhang sind jeweils der Bias- und der Fisher-Skillscore für
die Parameter H850, H500 und Q700 dargestellt. Zuerst immer für die erste
Episode (A001,A002, A003,A004,C001) und gleich anschließend für die
2.Episode (A005, A006, A007, A008, C002, B005, D005, A000).
38
39
40
41
42
Die Vergleichsplots der einzelnen Läufe und Parameter zwischen ERA40 und
dem Modell finden sich aufgrund der Dateigröße am FTP Server.
43