reclip:more
Transcription
reclip:more
BOKU-Met reclip:more Research for Climate Protection: Model Run Evaluation Projektjahr 1 Projektteil BOKU-Met Validierung – Sensitivitätstests Institut für Meteorologie Department Wasser - Atmosphäre - Umwelt Universität für Bodenkultur Arbeitsbericht für den Zeitraum 1.11.2003 – 30.6.2004 von Andreas Frank Herbert Formayer Petra Seibert Bernd C. Krüger Helga Kromp-Kolb INHALTSVERZEICHNIS Ergebnisvalidierung – Definition statistischer Parameter .................................3 Einleitung ......................................................................................................3 Normalised root-mean square error (NMSE) ................................................3 Das Problem ..............................................................................................3 Lösungsvorschläge ....................................................................................4 Zusätzliche Bemerkungen zur Normierung mit absoluten Werten .............4 Figure of merit...............................................................................................5 Relative bias .................................................................................................5 Die Rolle des Korrelationskoeffizienten ........................................................6 Einfluss des BIAS auf den RMSE .................................................................6 Taylor Diagramm ..........................................................................................7 Vorschlag eines total skill score ....................................................................8 Evaluierungsstrategie ......................................................................................9 Einleitung ......................................................................................................9 Datenquellen.................................................................................................9 Arten von Läufen und Grundsätzliches zu ihrer Evaluierung ......................10 S1 – freie Episodensimulationen..............................................................10 S2 – Episodensimulationen mit Nudging .................................................11 S3 – 1-Jahr-Simulation ohne Nudging .....................................................11 Statistische Standardparameter..................................................................11 Evaluierungsmethoden für die verschiedenen Datenquellen ......................12 D1 – ERA-40............................................................................................12 D4 – Radiosonden ...................................................................................12 Domain-Setup .............................................................................................13 Domaingrößen .........................................................................................14 Validierungsstrategie ...............................................................................15 Parameter -Setup MM5, Aladin......................................................................15 Termine..........................................................................................................16 Erste Vergleichsrechnungen MM5 – Aladin ...................................................18 Festlegung der MM5- Parametrisierungen:.................................................18 Festlegung der für diesen Test sinnvollen Termine: ...................................18 Auswertung der Ergebnisse ........................................................................19 Detailierte Ergebnisdiskussion für die Temperatur in 850 hPa.................20 Geopotential in 850 hPa ..........................................................................29 Geopotential in 500 hPa ..........................................................................31 Spezifische Feuchte in 700 hPa...............................................................31 Niederschlagsverteilung...........................................................................32 Rechenzeit ...............................................................................................34 Synopsis – Schlussfolgerungen ...............................................................35 Ausblick – weitere Schritte.............................................................................35 Literatur..........................................................................................................37 Bildanhang .....................................................................................................38 2 Ergebnisvalidierung – Definition statistischer Parameter Einleitung Bestimmte Sets statistischer Parameter wurden speziell in der „Air pollution modeling community“, in Europa im Rahmen von ATMES (Klug et al, 1992), ETEX (Mosca et al: 1998a, b) und der so genannten Harmonisierungsinitiative in Nordamerika Standard um Modelle untereinander und mit Beobachtungen quantitativ zu vergleichen. Einige von ihnen – NMSE, fractional bias und figure of merit beispielsweise – sind problematisch und sollten durch modifizierte Größen ersetzt werden. Die Details dazu werden in diesem Kapitel des Berichts kurz erläutert. Keinesfalls stellt diese Zusammenstellung hier einen kompletten Überblick der statistischen Parameter zur Modelevaluierung dar, es wird auch nicht versucht einen umfassenden Vorschlag eines empfohlenen Sets von Parametern zu formulieren. Wir nehmen an, dass wir es mit paarweise angeordneten Daten zu tun haben xio , xim , i ∈ [1, N ] , wobei das hochgestellte o für beobachtete Werte und das m für modellierte Werte steht. Im Falle von Modellvergleichen können zwei Modelle paarweise miteinander verglichen werden, dann bezeichnet o das eine Modell und m das andere (für ein Set von M Modellen bedeutet dies, M 2 − M Paare). ( ) 2 Normalised root-mean square error (NMSE) Das Problem Häufig (z.B. von Mosca et al, 1998b), ist se üblich den normalised meansquare error (NMSE) folgend zu definieren: und den mean-square error (MSE) folgendermaßen zu definieren: mit Dieser kann folgendermaßen mit dem normalen root-mean-square error (RMSE) in Verbindung gebracht werden: Der NMSE hängt in der obigen Definition sowohl von den quadratischen Differenzen der Datenpunkte als auch vom Mittel sowohl der modellierten als auch der beobachteten Daten (oder von beiden Modellen im Fall eines Modellvergleichs) ab. 3 Er hat die Eigenschaft für Modelle die überschätzen kleiner (besser) zu sein, als für solche die unterschätzen, auch dann wenn beide Modelle denselben RMSE aufweisen. Diese Eigenschaft ist unbefriedigend. Lösungsvorschläge Die einfachste Lösung besteht darin, den RMSE nicht zu normieren, ein Weg der in all jenen Fällen möglich ist, wo keine relativen Werte benötigt werden. Eine Normierung ist immer dann nötig, wenn verschiedene Größen miteinander vergleichbar gemacht werden sollen (z.B. in einer Kostenfunktion). In all jenen Fällen wo Beobachtungen (Messwerte) zur Verfügung stehen, sollte man immer diese zur Normierung heranziehen: Für direkte Modellvergleiche, wenn man also keine Bebachtungen zum normieren heranziehen kann, ist es am besten eine charakteristische Magnitude, welche nicht von den Eigenschaften des Modellpaars abhängt zu verwenden: Im Falle eines Vergleichs mehrerer Modelle m ∈ [1, M ] kann der (quadratische) Scale von x*2 als das Mittel der quadratischen Mittelwerte all dieser Modelle angesetzt werden: Zu Beachten ist, dass sich dies im Fall von M=2 nicht mit der standard Definition des NMSE (1) deckt. Falls dies erwünscht ist, sollte der quadratische Scale folgendermaßen definiert werden: Ich weiß keine Argumente warum (8) bevorzugt verwendet werden sollte als (7). Auf der anderen Seite, wenn wir den hypothetischen Fall annehmen, dass ein Modell nur sehr kleinen Werten beinhaltet, dann würde die Definition 8 zu einem extrem großen NMSE Wert führen. Speziell in Fällen wo M ≤ 3 ist erscheint dies unbefriedigend, weshalb ich die Verwendung der Definition 7 empfehlen würde. Zusätzliche Bemerkungen zur Normierung mit absoluten Werten Die Normierung mit Größen die auf Mittelwerten beruhen ist nur für jene Daten sinnvoll, wo diese Mittelwerte die Größenordnung der Varianz repräsentieren. Dies ist zum Beispiel für die Konzentration atmosphärischer Spurenbestandteile, wo der Hintergrund bereits abgezogen wurde, wie zum Beispiel der ETEX-Daten, der Fall. In einem allgemeineren Zusammenhang erscheint es jedenfalls besser den MSE mit der Varianz der Daten zu normieren. Ein typisches Beispiel einer 4 Größe bei der dies nötig erscheint ist die Temperatur. Für den einen oder anderen mag es durchaus naheliegend erscheinen diese Form der Normierung auch auf die Daten der Spurenbestandteilkonzentration anzuwenden. Für den Vergleich von Modellwerten mit Beobachtungen, könnte der Scale von x*2 dann folgendermaßen aussehen: und im Falle des direkten Vergleichs mehrerer Modelle m ∈ [1, M ] als das Mittel der Varianzen all dieser Modelle: In der statistischen Optimierungstheorie kann gezeigt werden, dass eine Kostenfunktion unter Berücksichtigung der Varianz zu den wahrscheinlichsten Ergebnissen führt. Weiters sollte, falls eine Kovarianzstruktur erkennbar ist, die Kovarianzmatrix zur Normierung verwendet werden. Dieser Punkt wird speziell dann relevant, wenn die verwendeten Beobachtungen korreliert sind, was im Falle der Meteorologie oft der Fall ist. Während dies mittlerweile zumindest in einer angenäherten Form in Algorithmen wie der variationellen Datenanalyse berücksichtigt wird, findet es bei der Modellevaluierung kaum Anerkennung. Figure of merit Klug et al. (1992) und Mosca et al. (1998b) definierten eine figure of merit in space und eine figure of merit in time. Sie sind definiert als die Überlappungsfläche der beiden Gebiete Am und Ao geteilt durch die Gesamtfläche von Beobachtung und Modell. Am ist hier die Modellfläche, in der ein vorgegebener Schwellwert überschritten wurde und Ao die entsprechende Fläche in den Beobachtungen: Die Auswertung kann entweder auf Landkarten erfolgen (merit in space, FMS) oder in Form von beispielsweise Zeitreihen der Konzentration (merit in time, FMT). Auch hier tritt das gleiche Problem wie beim NMS auf und man kann es auf die gleiche Weise lösen, nämlich derart anstatt mit der Vereinigungsfläche nur o mit der Beobachtungsfläche A zu normieren oder mit der mittleren Fläche der Modelle M −1 ∑m A m , falls es sich um einen Vergleich mehrerer Modelle handelt. Relative bias Der Bias repräsentiert die mittlere (oder auch systematische) Abweichung zwischen zwei Datenquellen: 5 und ein relative bias könnte folgendermaßen definiert werden: Manchmal (z.B. Stohl et al., 1998) wird diese Größe als fractional bias bezeichnet. Dies führt erneut zum Problem welches oben diskutiert wurde und sollte auf dieselbe Art und Weise vermieden werden. Die Rolle des Korrelationskoeffizienten Korrelationskoeffizienten (üblicherweise der Pearson-Korrelationskoeffizient, manchmal eine Rankkorrelation) werden gerne verwendet, um die Modellperformance zu beschreiben, entweder in Form des Korrelationskoeffizienten r oder in Form des erklärten Varianzanteils r². Will man r² verwenden, so muss man sich davon überzeugen, dass r positive ist, andernfalls könnten falsche Schlussfolgerungen gezogen werden. Das Hauptproblem bei Verwendung des Korelationskoeffizienten ist jenes, dass er eine notwendige aber keine ausreichende Bedingung für eine gute Übereinstimmung ist. Eine perfekte Korrelation wird nicht nur dann erreicht, wenn Modell und Beobachtung ideal zusammenpassen, sondern auch dann, wenn diese in einen linearen Zusammenhang zueinander stehen, beispielsweise, wenn das Modell konstant um 50% unterschätzt. Die Korrelation misst wie gut die Daten zu irgendeiner linearen Funktion passen, wogegen das Ziel eines Models die Erfüllung der ganz speziellen linearen Beziehung xo=xm sein muss. Außerdem hängt der Korrelationskoeffizient vom Datenbereich ab: Bei gleichem RMSE nimmt die Korrelation mit steigendem Datenbereich zu. Daher kann der Korrelationskoeffizient als zusätzliche Entscheidungshilfe herangezogen werden aber die Hauptentscheidung über die Modellperformance sollte auf anderen Größen basieren. Einfluss des BIAS auf den RMSE Der Bias repräsentiert die mittlere (oder auch systematische) Abweichung zwischen zwei Datenquellen, wogegen der RMSE die mittlere Differenz (im Sinne des RMS) zwischen den entsprechenden Datenpunkten beschreibt. Ein hoher Wert des Bias impliziert einen hohen Wert des RMSE, obwohl die Daten womöglich nur um einen gewissen Offset gegeneinander verschoben sind und ansonsten sehr gut übereinstimmen. Daher macht die Definition einer dritten Größe, nämlich des bias-corrected RMSE Sinn: Nach Sachs (1992, p. 128) kann diese Größe auch folgendermaßen berechnet werden: 6 Manchmal (z.B., Crescenti, 1997) wird diese Größe als precision bezeichnet, aber da diese Bezeichnung nicht klar ist und auch sonst weitverbreitet sollte man sie hier vermeiden. Ich denke der relative Bias und der normierte bias-korrigierte RMSE: mit x∗ definiert nach (8) oder (9) sind sehr brauchbare Gütemaße für viele Anwendungen. Wie auch immer Daten mit einer angenäherten log-normal Verteilung sollten besser vor der Berechnung dieser Größe transformiert werden. Taylor Diagramm Taylor (2001) zeigte auf, dass es eine Beziehung gibt zwischen dem biascorrected RMSE, der Varianz und dem Korrelationskoeffizient zweier Datensets. In unserer Notation sieht dies folgendermaßen aus: Er empfiehlt ein Polardiagramm, wo die Radialkoordinate die Standardabweichung repräsentiert und die Winkelkoordinate derart definiert ist, dass r=cosϕ ist. Die Referenz (Beobachtung) wird dann bei ϕ=0 und Radius σo geplottet und das Modell bei ϕ=r und Radius σm. Die Distanz zwischen diesen beiden Punkten stellt dann den BC RMSE (in denselben Einheiten wie die Standardabweichung) dar. Mit anderen Worten, für eine gegebene Referenz können nur mehr zwei der verbleibenden Parameter (Standardabweichung Modell, BC RMSE, r) unabhängig von einander variieren. Weiters schlug er zwei Formeln vor, die diese Parameter zu einen einzigen Skill-Score Sr vereinigen. Die Hauptbedingungen dazu sind die folgenden: Diese Bedingung ist für hohe Korrelationen durch den Kehrwert des BC RMSE erfüllt, aber für kleine Korrelationen muss die Korrelation selbst in der Skillscoreformulierung berücksichtigt werden. Die einfachste Formel, welche dem BC RMSE ein relativ hohes Gewicht gibt ist die folgende: (hier ist angenommen, dass Sr=1 für r=1; Taylor hat vorgeschlagen, diesen Wert durch die „erzielbare Korrelation“ zu ersetzen.) Die Standardabweichung des Modells wird in diesem Fall mit jener der Beobachtung normiert. Man kann dies genauso im Diagramm machen, indem man die Radialachse in Einheiten von σo skaliert. Abbildung 1 zeigt Isolinien von Sr im Taylor Diagramm. Man sollte aber beachten, dass der Bias in Taylor’s Skillscore nicht berücksichtigt wird. 7 Abb.1: Beispiel des Taylor Diagramms mit Isolinien des Skillscores Sr und Niederschlagswerten über Indien, die mit 28 Modellen simuliert wurden. (aus Taylor (2001), Fig. 10.) Vorschlag eines total skill score Wie wir gesehen haben kann die Idee des normierten bias korrigierten RMSE zu Taylor’s Skillscore erweitert werden, indem ein Korrelationsanteil, der speziell für große Werte des NBC RMSE wichtig wird, hinzugefügt wird. Wollen wir zusätzlich den (relativ) BIAS im Skillscore berücksichtigen, so muss zuerst eine Formulierung gefunden werden, die den relativ BIAS (RB) in einen Skill Score Sb mit 0 ≤ S b ≤ 1 transformiert, wobei 1 für RB=0 erreicht wird. Ein sinnvolles Ergebnis kann beispielsweise mit folgender Formel erzielt werden: Das Setzen des Wertes a=10 scheint eine vernünftige Abbildung solch eines Skillscores zu sein, wie in Tabelle 1 zu sehen ist. Nun können bei Skillscores zu einem Gesamtskillscore S kombiniert werden Tab.1: Einige Zahlenwerte des Bias skill scores definiert nach Gl.19 mit a=10 . 8 Evaluierungsstrategie Einleitung Die Modellevaluierung soll im Rahmen von RECLIP zwei Zielen dienen: • Auswahl eines möglichst optimalen Set-ups für MM5 und gegebenenfalls auch Aladin (Gebiete, Gitter, Modellphysik) • Vergleichender Test der Leistungsfähigkeit der beiden Modelle im Hinblick auf Klimaanwendungen Für die Tests wird folgende Reihenfolge vorschlagen: 1. Festlegung von Gebiet und horizontalem Gitter 2. Untersuchung, ob Zängl-Version (Zängl, 2003) sinnvoll ist 3. Tests mit Optionen zur Modellphysik (außer SVAT) 4. (Langzeit-)Test des/der SVAT(s) Datenquellen Folgende Datenquellen stehen prinzipiell zum Vergleich mit den Ergebnissen der Modelle zur Verfügung: ERA-40 Felder: Am Europäischen Zentrum für mittelfristige Wettervorhersage (ECMWF) wurde mit Hilfe des operationellen Vorhersagemodells (in reduzierter Auflösung) ein 3D-Analysendatensatz erstellt (Kållberg 2004). Datengrundlage dieses Modellaufs sind die Beobachtungen der letzten 45 Jahre, weshalb man quasi 3D Beobachtungen zur Verfügung hat, also fast die wirklichen Felder jedes einzelnen Tages. Diese Daten sind mit einer horizontalen Auflösung von 1° auf 60 Modellflächen oder 23 Druckflächen verfügbar und werden im Rahmen dieses Projekts auch zum Antrieb der mesoskaligen Modelle verwendet. VERA-Analysen: VERA (Vienna Enhanced Resolution Analysis) wurde am Institut für Meteorologie und Geophysik der Universität Wien entwickelt. Dieses Interpolationsverfahren dient der hochauflösenden Analyse von zweidimensionalen Feldern wie etwa dem Druck oder der Temperatur (Steinacker et al. 2000). Niederschlagsanalyen: 24-std. Niederschlagssummen aufbereitet von Christoph Frei stehen auf einem regelmäßigen Gitter im Alpenraum für die Perioden 1971-1995 sowie 7.9.-15.11.1999 (MAP-SOP) zur Verfügung. Das Gitter ist ein Lat-Lon-Gitter mit ∆x=0.3° und ∆y=0.22°, also etwa 25 km Maschenweite. Zusätzlich zu diesen sehr genauen Daten sollen noch grober aufgelöste Daten für andere Perioden vom Weltniederschlagszentrum in Offenbach für spätere Tests zur Verfügung stehen. 9 Radiosonden: Ein homogenisierter, qualitätsgeprüfter Radiosonden-Datensatz von Christian Häberli (Comprehensive Alpine Radiosonde Data Set – CALRAS)1steht zur Verfügung. Daten (Teil A [Hauptdruckflächen] und B [markante Punkte], teilweise auch noch höhere Auflösung) von ca. 25 Stationen im und um den Alpenraum sind für den Zeitraum 1980-2000 am IGAM vorhanden. Stationsdaten: Im Rahmen des Mesoscale Alpine Program (MAP) wurde im Herbst 1999 (7.9. - 15.11) ein dichtes Stationsmessnetz im Alpenraum betrieben, welches eine sehr gute Datengrundlage für die Validierung der Modellergebnisse mit Bodenstationen bildet. In diesem Zeitraum und auch schon die Monate davor liegen sehr viele qualitätsgeprüfte Beobachtungen vor. Viele Stationen wurden zusätzlich zu den permanent verfügbaren Synop- und Klimastationen, die natürlich auch zur Evaluierung herangezogen werden können, betrieben. Arten von Läufen und Grundsätzliches zu ihrer Evaluierung Da sie jeweils unterschiedliche Methoden der Evaluierung erfordern, ist es wichtig, die verschiedenen Arten von Modell-Läufen zu beachten: • Episodensimulationen mit Randbedingungen aus ERA-40 zur Optimierung vor allem von Gebiet und Gitter, evt. auch manchen Modellphysik-Optionen • Episodensimulationen mit Randbedingungen und Gitterpunkt-Nudging aus ERA-40 zur Optimierung von Modellphysik und Gitter • 1-Jahr-Simulation mit Randbedingungen aus ERA-40 zur Optimierung des SVAT-Schemas und für den vergleichenden Test der beiden Modelle, sowie zur generellen Abschätzung der Leistungsfähigkeit der Modelle Im ersten Projektjahr wurden von allen Projektpartnern die jeweils nötigen Tools entwickelt, und für die später folgende Auswertung und zum Testen der entwickelten Module wurde mit dem ersten Test begonnen; alle weiteren Tests werden sukzessive im zweiten Projektjahr durchgeführt. Trotzdem soll hier gleich die gesamte Evaluierungsstrategie erläutert werden, damit ein klares Gesamtbild zur Evaluierung entsteht. S1 – freie Episodensimulationen Die Größe des Modellgebietes soll so gewählt werden, dass der Einfluss der Ränder so stark ist, dass das im Inneren vom Modell generierte Wetter noch determiniert ist, jedoch nicht zu stark, so dass die höhere Auflösung im Vergleich zu ERA-40 (bzw. GCM) die Freiheit hat, abweichende – hoffentlich bessere – Strukturen zu produzieren. Die Prüfung, ob das generierte Wetter 1 Siehe http://homepage.univie.ac.at/christian.haeberli/CALRAS.htm, dort auch eine technische Beschreibung 10 noch realistisch ist, kann anhand von ERA-40 Daten erfolgen. Dazu muss ein Upscaling auf die Auflösung von ERA-40 erfolgen. Die Prüfung sollte im Gesamtgebiet mit Ausnahme der randnahen Zonen erfolgen. Die Fähigkeit, bessere Strukturen zu erzeugen, soll primär im Alpenraum und Umgebung geprüft werden. Wenn wir die Gebiete der innersten Nester der diversen Testläufe (verschiedene MM5- und ggf. Aladin-Varianten) i mit Ai bezeichnen, sollte dieses Gebiet I Ai (größtes noch allen Läufen gemeinsames Gebiet) sein. Prüfung zusätzlich zu D1 (siehe unten) anhand von D3, D5 und möglichst auch D2. Da die Freisetzung latenter Wärme ein wesentlicher Faktor der Zyklogenese ist (Pichler and Steinacker, 1975), bieten sich S1-Simulationen auch für die Beurteilung von Konvektions- und Feuchteschemata an. _ S2 – Episodensimulationen mit Nudging Diese Simulationen sollen der Optimierung von Modellphysik-Optionen dienen. Wir wollen, dass die Phase und Amplitude der synoptischen Systeme keine groben Fehler aufweist, so dass die Vergleiche mit den Beobachtungen Auskunft über die Qualität der kleinräumigen, orographisch und durch die Unterlage bestimmten Phänomene geben. Die Datensätze D2-D5 sollen für die Prüfung herangezogen werden. Je nach Fragestellung können unterschiedliche Episoden verwendet werden. S3 – 1-Jahr-Simulation ohne Nudging Das Jahr 1999 soll als Ganzes simuliert werden, um einen Eindruck von der Qualität des Ergebnisses zu erhalten, das dann auch für die eigentlichen Klimarechnungen erwartet werden kann. Da sich die Landoberflächen-Schemata (SVAT) erst auf dieser Zeitskala deutlich auswirken, soll diese Simulation, wenn möglich bzw. noch erforderlich auch der Auswahl zwischen den im MM5 möglichen SVAT-Schemata dienen. Alle Datensätze (D1-D5) sollen für die Evaluierung verwendet werden. Statistische Standardparameter Folgende statistischen Standardparameter sind zu berechnen, wobei die jeweiligen Parameter und Grundgesamtheiten bei den entsprechenden Datenquellen bzw. Tests spezifiziert werden: P-1. x o (Gl. 3) P-2. RMSE (Gl. 4) P-3. Bias (Gl. 12) P-4. Bias-korrigierter RMSE (Gl. 14) P-5. Inputdaten für das Taylor-Diagramm: Standardabweichungen Modell und Beobachtung sowie Korrelationskoeffizient P-6. Fisher’s skill score (Gl. 18) P-7. Bias skill score (Gl. 19 mit RB = Bσ x−1 , siehe Gl. 9, und a=10). P-8. Total skill score (Gl. 20 mit α=0.5). 11 Evaluierungsmethoden für die verschiedenen Datenquellen Die detaillierte Ausarbeitung der Evaluierung mit bestimmten Daten erfolgte vorerst für ERA-40 Daten, da diese für die ersten Tests vorrangig verwendet werden und für Radiosondendaten, damit sich die dafür zuständigen Kollegen ein Bild der von uns vorgeschlagene Evaluierungsmethodik machen können. D1 – ERA-40 Zu evaluierende meteorologische Parameter: • Geopot. Höhe der 850 hPa Fläche (Gebiete mit Topographie, die höher reicht, sind auszunehmen, wobei dieses Gebiet für alle Tests und Modelle einheitlich zu definieren ist) • Temperatur auf der 850 hPa Fläche (Gebiet wie oben) • absolute Feuchte (g Wasserdampf pro kg feuchter Luft) auf der 850 hPa Fläche (Gebiet wie oben). (Von der Kombination zu Θe wird abgesehen, um die Feuchte auch getrennt untersuchen zu können, die u.U. von manchen Parametrisierungen extra beeinflusst ist). • Geopot. Höhe der 500 hPa Fläche Dies setzt die Extraktion der entsprechenden Druckflächen-Daten (oder ihre Berechnung durch Interpolation) und die Definition der wegen der Topographie auszulassenden Gebiete voraus. Die Evaluierung soll sich auf die Felder zu den synoptischen Hauptterminen (00,06,12,18 UTC) stützen und 48 h nach Modellstart beginnen. Mit Hilfe von Postprozessoren werden die Modellergebnisse auf Druckflächen gebracht und anschließend mittels Cressman-Methode auf das ERA-40 Gitter interpoliert. Zu berechnende Kenngrössen: Standardparameter P-1 bis P-8 (a) für jeden Evaluierungs-Zeitschritt und jeden meteorologischen Parameter (b) für gesamte Evaluierungsperiode und jeden meteorologischen Parameter (c) Gesamt-Skill-score gemittelt über alle meteorologischen Parameter für gesamte Evaluierungsperiode. Wetterkarten der gewählten Parameter, die für die subjektive Interpretation und Bewertung der Ergebnisse hilfreich erscheinen, sollten von den Modellbetreibern miterzeugt werden. D4 – Radiosonden Radiosonden sind die einzigen uns zur Verfügung stehenden Daten, die kleinräumige Phänomene in der freien Atmosphäre bzw. im vertikalen Profil beschreiben. Sie eignen sich daher vor allem für die Anwendung im Alpenraum und Umgebung und sollten nur mit dem feinen Nest verglichen werden. Sie sollen vor allem zur Prüfung der kleinräumigen Strömungsstrukturen und der Grenzschicht-Parametrisierung eingesetzt werden. Es wird daher vorgeschlagen, Daten bis 3500 m über Grund zu verwenden. 12 Datenaufbereitung: Lineare Interpolation von Temperatur, relativer Feuchte, u- und v-Komponente sowie Betrag des Windes auf vorgegebene Höhen über Grund, sowohl im Modell wie in den Beobachtungen. Vorschlag für die Höhen [in m agl]: 50 - 100 - 150 - 200 - 300 - 400 - 500 - 700 - 900 - 1200 - 1500 - 1800 - 2200 2600 - 3000 – 3500 Berechnung der statistischen Parameter wie oben (a) für jede Station, jede Höhe und jeden Parameter über jeweils eine Episode, (b) dasselbe, jedoch getrennt für 00 Z und 12 Z Aufstiege (Zwischenaufstiege hier nicht berücksichtigt), (c) die Ergebnisse von (a) und (b) gemittelt über alle Stationen, (d) Skillscore gemittelt über alle Stationen und Parameter für jedes Niveau wobei der Skillscore folgendermaßen gewichtet wird: 2 1 2 ST + SU + (0.3SU + 0.3S v + 0.4S ff ) 5 5 5 (e) Skillscores nach (d) gemittelt über alle Niveaus. Domain-Setup Um sicher zu gehen, dass die für Europa meteorologisch wichtigen Prozesse gut erfasst werden schien es uns notwenig, das mit MM5 modellierte Gebiet in Richtung Atlantik auszudehnen. Wir wählten ein großes Gebiet (G2), in dem Island noch mit simuliert wird, und ein kleineres (G1), das im Südwesten bis 10°W reicht (siehe Abbildung 2). Da im Osten die Erstreckung bis zum Ural hin sicherlich für das Wetter in Alpenraum ausreichend ist, wurde die Domain so gelegt, dass ihr Zentrum nicht in Österreich liegt, sondern bei 52.5° / 11.3° für die große Domain und 49.5°/11.3° für die kleine Domain. Das große Gebiet entspricht in etwa jenem, welches von den meisten im EU-Project Prudence beteiligten Modellen abgedeckt wird. Durch diese Verschiebung des Domainzentrums nach Nordwesten konnte das Gesamtrechengebiet verkleinert werden, weshalb nur mehr ein Nest notwenig wurde. Diese Maßnahme ermöglichte es den Rechenaufwand erträglich zu halten. Ob die Auflösung von 30 km im großen Gebiet bzw. 10 km im Nest große Vorteile gegenüber der gröberen Auflösung von 45 km / 15 km erbringt, muss bei der Auswertung der Tests festgestellt werden. Der Faktor drei zwischen den Neststufen ist vom Programm vorgegeben. Die horizontale Modellauflösung bestimmt den verwendbaren Zeitschritt im Modell, da dieser in der Regel dreimal länger sein muss, als die horizontale Gitterauflösung, um das CFLKriterium zu erfüllen Die Frage der vertikalen Auflösung muss ebenfalls noch behandelt werden. Ursprünglich war daran gedacht, diese im Kontext der Grenzschichtparametrisierungen zu behandeln. Jedoch könnte es sein, dass die Auflösung in der freien Atmosphäre auch ein relevanter Parameter ist, und sie wäre dann in Zusammenhang mit dem Domainsetup zu untersuchen. 13 Domaingrößen Im Folgenden sollen nun die 4 verschiedenen Domainsetups ein wenig erläutert werden. In der Abbildung 2 sind die verschiedenen Ausschnitte und Auflösungen zu erkennen. Es sind hier auch zusätzlich die Aladin-Domain und eine zusätzliche MM5-Domain, welche ähnlich jener des Aladin ist, um die direkten Vergleiche ehrlicher zu machen, abgebildet. Dargestellt ist die Temperatur in 850 hPa für einen Tag aus der 2. Episode, da nur für diese die MM5Aladindomain mitgerechnet wurde. In allen MM5-Domains liegt noch ein Nest, welches die jeweilige Feinauflösung (15 km bzw. 10 km) über dem Alpenraum enthält. Dies ist der Übersichtlichkeit wegen hier nicht eingezeichnet. Abb. 2: Domain-Setups für MM5 und Aladin. A005 bezeichnet die große MM5 Domain mit 45km Auflösung. A006 bezeichnet die kleine MM5 Domain mit 45km Auflösung. In der 2.Zeile sind die beiden Domains mit jeweils 30 km Auflösung dargestellt (A007:groß, A008: klein). In der untersten Zeile ist links die Aladin-Domain dargestellt und rechts die MM5-Doamin, welche ähnlich jener des Aladin gestaltet ist. 14 Validierungsstrategie Test für äußere Domain D01 (mit grober (45 km) Auflösung): G1 kleineres Gebiet G2 großes Gebiet Gx Test für Nestdomain D02 (mit grober (15 km) Auflösung): N1 kleiner N2 größer GxNx Test zur Auflösung: 45 km – 15 km 30 km – 10 km GxNxAx D.h. zur Festlegung der Domain und Auflösung sind mindestens 6 Rechnungen notwendig. Parameter -Setup MM5, Aladin Das PSU/NCAR mesoskalige Modell (bekannt als MM5) ist ein kleinräumiges, nicht hydrostatisches geländefolgendes Modell in sigma-Koordinaten, entwickelt um mesoskalige atmosphärische Prozesse zu simulieren. Es wurde an der Penn State University und NCAR als gemeinsames mesoskaliges Modell entwickelt (Grell et al. 1994). Das Modell wird üblicherweise mit meteorologischen Vorhersagedaten (z.B. ECMWF) betrieben. Mit Hilfe eines Nesting-Verfahrens wird eine horizontale Auflösung im km-Bereich erreicht. MM5 beinhaltet viele verschiedene Parametrisierungen von physikalischen Prozessen, die in unterschiedlichen Kombinationen miteinander verwendet werden können (vgl. Abb.3). Im Modell stehen 8 verschiedene Varianten zur Cumulus-Parametrisierung, 7 verschiedene Grenzschichtschemata, 8 explizite NiederschlagsParametrisierungen, 4 Möglichkeiten zur Strahlungs-Parametrisierung und 3 verschiedene Bodenschemata zur Verfügung. All diese Parametrisierungen sind stark miteinander gekoppelt und manche davon ohne bestimmte andere gar nicht anwendbar. Die Vielzahl an verfügbaren Parametrisierungen ermöglicht es für die verschiedensten Anwendungen ein geeignetes Modell zur Verfügung zu haben. Die Aufgabe des Modellierers besteht nun darin das für die jeweilige Fragestellung optimale Setup zu finden. Für die übliche Anwendung des Modells, nämlich kurzfristige hochaufgelöste Wettervorhersagen, findet man jede Menge Empfehlungen und Literatur über die geeignete Wahl der Parameter. Der in diesem Projekt verfolgte Ansatz, nämlich ein dynamisches Klimadownscaling im Alpenraum durchzuführen, ist hingegen innovativ, 15 weshalb das bestmögliche Parameter-Setup erst gefunden werden muss, und dafür diverse Tests durchzuführen sind. Auch für das zweite zum Einsatz kommende mesoskalige Modell, ALADIN, muss das passende Setup gefunden werden. Dies wird jedoch von den Modellbetreibern festgelegt und diese stellen zu jedem von uns für das MM5 vorgeschlagenen Test adäquate Aladinergebnisse zur gemeinsamen Validierung zur Verfügung. Abb. 3: MM5-Parametrsierungswechselwirkungen Termine Zur Durchführung der Parametertests ist es erforderlich, geeignete Termine und Episoden, die charakteristische Wettersituationen beinhalten, zu eruieren. Aufgrund der guten Datenlage sollten die Perioden, soweit möglich im Zeitraum der MAP Special Observing Periode (SOP) liegen. Da nicht alle für die Parametertests notwendigen Wetterlagen in diesem Zeitraum auftraten und um auch andere Jahreszeiten testen zu können wurde ein Schwerpunkt auf das Jahr 1999 gelegt, aber auch andere Jahre berücksichtigt. In Tabelle 2 sind die einzelnen Episoden, sowie ein charakteristisches Fallkürzel und das aufgetretene Wetter vermerkt. Die Perioden wurden zum einen mit Hilfe der MAP-Datenbank zum anderen aufgrund der täglichen Klima- und Wetterinformation der ZAMG, sowie der Analyse von Wetterkarten ausgewählt. 16 Tab.2: Wetterlagen und Termine für Tests der physikalischen Parametrisierungen und Domains. Die Spin-Up Zeit ist noch nicht berücksichtigt (Vorschlag 2-3Tage) Jeder Fall ist durch ein Kürzel eindeutig definiert. Die Abkürzungen sind wie folgt zu lesen: Mp = MAPEpisode, Ep = Episode, ST = Strahlung, SF = Südföhn, NF = Nordföhn, BL = Bodenfeuchte/ Grenzschicht, KO = Konvektion, RR = Niederschlag. Fallkürzel Beginn Ende Dauer(d) Wetter MpSF1 MpSF2 MpSF3 MpSF4 MpNF1 MpBL1 MpST1 MpST2 EpRK1 EpRK2 EpRR1 EpRR2 EpRR3 EpSF1 EpSF2 EpSF3 EpSF4 EpST1 EpST2 EpST3 EpST4 EpST5 EpST6 EpST7 EpKO3 18.09.99 21.10.99 29.10.99 04.11.99 07.11.99 15.10.99 11.09.99 07.11.99 07.08.99 13.07.99 21.07.92 04.07.94 22.07.95 14.04.99 28.04.99 17.05.99 05.06.99 18.01.98 01.02.98 05.02.98 30.03.98 08.01.98 09.02.98 16.01.99 07.05.98 21.09.99 25.10.99 30.10.99 05.11.99 07.11.99 19.10.99 11.09.99 07.11.99 07.08.99 13.07.99 22.07.92 06.07.94 22.07.95 15.04.99 29.04.99 19.05.99 06.06.99 18.01.98 01.02.98 05.02.98 31.03.98 13.01.98 15.02.98 24.01.99 13.05.98 3 5 2 2 1 5 1 1 1 1 2 3 1 2 2 3 2 1 1 1 2 6 7 9 7 EpKO4 23.05.99 01.06.99 10 EpKO5 18.07.99 25.07.99 8 EpRR4 EpRR5 EpRR6 EpRK7 EpRK8 EpRR9 EpRR10 03.12.88 02.08.87 17.12.87 10.07.90 20.07.81 08.10.93 04.10.92 03.12.88 02.08.87 17.12.87 10.07.90 20.07.81 08.10.93 05.10.92 Südföhn/Stauniederschlag Südföhn Südföhn Südföhn Nordföhn Boden-Hochnebel (Hochdrucklage) (Wien wolkenlos) (Frontdurchgang, durchwegs bedeckt) Gewitteraktivität Gewitteraktivität HERA-Fall konvektiver Niederschlag HERA-Fall konvektiver Niederschlag HERA-Fall konvektiver Niederschlag Föhn Föhn Föhn Föhn Hochdruck, Winterstrahlungstest H.W: BEW: 0,6,1 H.W: BEW: 0,0,0 H.W: BEW: 1,0,0- 1,3,4 Nebel od. Hochnebel wolkenlos, Hochnebel wolkenlos, Hochnebel Hochdruck-QuellwolkenSchauer/Wärmegewitter Hochdruck-QuellwolkenSchauer/Wärmegewitter Hochdruck, sommerlich, subtropisch, labil bzw. feuchtlabil Startclim-zykl. Nordwestwetterlage Startclim-zykl. Nordwestwetterlage Startclim-zykl. Nordwestwetterlage Startclim-Kaltlufttropfen Startclim-Kaltlufttropfen Startclim-Südstau Startclim-Südstau 1 1 1 1 1 1 2 17 Erste Vergleichsrechnungen MM5 – Aladin Um die von allen erarbeiteten Tools auch einem praktischen Test zu unterziehen, wurde ein MM5-Setup festgelegt und damit für zwei meteorologisch sehr interessante Episoden aus der MAP-SOP Simulationen durchgeführt. Festlegung der MM5- Parametrisierungen: Folgende Parametrisierungsvorgaben für die MM5 Modellierung wurden gemacht: Radiation: RRTM longwave scheme IFRAD=4 PBL + SVAT: MRF + Noah land-surface scheme IBLTYP=5, ISOIL=2 Cumulus: Kain Fritsch 2 + ishallow ICUPA=8, ISHALLOW=1 (falls nötig) Moisture: Reisner1 (Mixed-Phase) IMPHYS=5 Die Wahl dieser Parametersetups richtete sich zum einen nach der möglichen Kombinationsfähigkeit dieser, zum anderen nach Empfehlungen von G.Zängl (Zängl, 2004), der bereits zahlreiche hochaufgelöste MM5 – Simulationen im Alpenraum durchführte und eine für komplexes Terrain verbesserte Modellversion (Zängl, 2003) entwickelt hat. Die neuen Module dieser MM5 Version sollen in Kürze in die nächste offizielle MM5-Version übernommen werden, wir haben die neue Version bereits bei uns am Institut installiert und die Lauffähigkeit getestet. Ob diese Version deutliche Verbesserungen für unsere Klimaanwendung erbringt soll in einem der in diesem Jahr folgenden Tests überprüft werden, denn die Vorteile der neuen Methode liegen vor allem bei Auflösungen im oder unter dem km-Bereich. Festlegung der für diesen Test sinnvollen Termine: Um die Effekte der Domaingröße und Wahl aufzuzeigen, sollten Episoden gewählt werden, die viel Dynamik beinhalten. Da mit dem Aladin bereits die gesamte MAP-SOP simuliert war, sollten die Episoden aus dieser Zeitperiode entnommen werden. Als meteorologisch interessante Episoden wurden die folgenden beiden ausgewählt, wobei jeweils vorne weg noch zwei Tage mehr gerechnet wurden, als so genannter Spin-Up, der bei der Evaluierung nicht berücksichtigt wird. Episode 1: 18.9.1999 – 21.9.1999 Episode 2: 5.11.1999 – 8.11.1999 Die Spin-Up Zeit des mesoskaligen Modells ist jene Zeitperiode, die erforderlich ist, damit sich kleinräumige Strukturen aufgrund der spezifischen Parametrisierungen sowie der besser aufgelösten unteren Randbedingung entwickeln können. Erst nach diesem Zeitraum kann das Modell den Zustand der Atmosphäre besser beschreiben als er bereits von den Antriebsdaten vorgegeben ist. 18 Auswertung der Ergebnisse Im folgenden Kapitel sollen nun erste Auswertungen der bisher durchgeführten Rechnungen präsentiert werden. Zum einen sollen die Vorund Nachteile der verschiedenen Scores erläutert werden, zum anderen aber auch ein erster Vergleich der Modelle. Auch auf die Wahl des Domainsetups soll etwas detaillierter eingegangen werden, da ja für unterschiedlich große Gebiete und mit unterschiedlichen Auflösungen simuliert wurde. Für die zweite Episode erfolge ein Modellvergleich zwischen den potentiellen MM5Betreibern (ARC-SYS, BOKU-Met, IGAM), außerdem wurde für diese Episode ein zusätzliches MM5-Domain festgelegt, welches jenem des ALADINModells ähnlich ist. Die Bezeichnung der diversen Domainsetups erfolgte so: Alle Berechnungen die von ARC-SYS durchgeführt wurden haben Namen, die mit A beginnen, die BOKU-Met-Berechnungen beginnen mit B und die AladinErgebnisse mit C. Mit dem Buchstaben D wurden die Ergebnisse des IGAM bezeichnet. Da für die MM5-Berechnungen ursprünglich 4 verschiedene Domainsettings vorgesehen waren heißen die Fälle der 1.Episode A001 bis A004 und jene der 2.Episode A005-A008, Aladin hat nur 1 Setup, daher C001 für die 1.Episode und C002 für die 2.Episode. Die MM5-Aladindomain wurde nachträglich mit A000 bezeichnet und bezieht sich auf die 2.Episode. Die Auswertung mit den statistischen Parametern erfolgt auf einem Gebiet, welches von allen Modellläufen abgedeckt wird, daher stellt das Aladinmodell den limitierenden Faktor dar. Die Ergebnisse des Aladinmodells würden von der Auflösung jenem der MM5-Nester entsprechen. Da diese aber nur den Alpenraum, also das Zielgebiet der Klimamodellierung abdecken und bei der Auswertung ein Vergleich mit den 1° aufgelösten ERA-40 Daten erfolgen soll, wird vorerst die grobe MM5 Auflösung mit der feinen Aladin Auflösung verglichen, weshalb bei diesem ersten Vergleich, der in erster Linie die Methodik der Auswertung aufzeigen soll, immer die Aladinergebnisse besser sind. Um den Vergleich mit den grob aufgelösten ERA-40 Daten durchführen zu können, werden die Modellergebnisse mittels Cressman-Interpolation auf das 1°-Gitter gebracht. Bei diesem Verfahren werden in einem vordefiniertem Umkreis (in unserem Fall 90 km) alle Modellgitterpunkte, gewichtet mit der Entfernung zum Zielgitterpunkt, gemittelt und liefern den neuen groben Gitterpunktswert. Die Wahl des Cressman-Radius orientierte sich an der gesuchten Zielauflösung. Bei 90 km Radius stehen immer genügend Gitterpunkte zur Verfügung, um die Interpolation sinnvoll durchführen zu können. Da bei der Auswertung nur ein Gebiet betrachtet wurde, welches von allen Modelläufen abgedeckt wird, gehen die Randwerte der Modelle nicht in die Auswertung mit ein. In Abbildung 4 ist dieses Gebiet als schwarzes Rechteck dargestellt. Es reicht von 4°E – 30°E und von 36°N – 54°N. 19 Abb. 4: Definition des Evaluierungsbereichs. Alle statistischen Vergleichsparameter wurden nur in dem mit dem schwarzen Rechteck begrenzten Gebiet berechnet, da dieses von allen Modellen abgedeckt wird. Farblich hinterlegt ist hier ein Temperaturdifferenzfeld der großen MM5-Domain. Wie bereits bei der Evaluierungsstrategie angesprochen, sollen vorerst folgende Parameter ausgewertete werden: ⎯ ⎯ ⎯ ⎯ ⎯ Temperatur in 850 hPa Geopotential in 850 hPa Geopotential in 500 hPa Spezifische Feuchte in 700 hPa Niederschlag Für die ersten vier Parameter werden statistische Parameter zwischen dem jeweiligen Modellergebnis und den ERA-40 Daten berechnet, für den Niederschlag wird in einem ersten Schritt der prozentuelle Anteil der Modellfläche betrachtet, in der über 0.5 mm Niederschlag in 6h gefallen sind und dieser nur zwischen den einzelnen Modelläufen und mit keiner Beobachtung verglichen. Anhand der Temperatur in 850 hPa sollen nun die verschiedenen Tools diskutiert werden, für die übrigen Parameter finden sich ähnliche Abbildungen und Tabellen im Anhang. Detailierte Ergebnisdiskussion für die Temperatur in 850 hPa Betrachtet man zunächst nur die 1.Episode und davon als ersten Schritt die für die Gesamtperiode berechneten statistischen Werte so zeigt sich (siehe Tabelle 3), dass alle Modelläufe recht ähnliche Mittelwerte liefern und diese auch sehr gut zum Mittelwert der Temperatur des ERA40-Feldes passen. Beim Bias erkennt man, dass die Temperatur in 850 hPa vom MM5 leicht unterschätzt wird, während das Aladin einen leicht positiven Bias aufweist, doch auch hier bewegen sich die Werte im 1/10 Grad-Bereich oder darunter, weshalb man mit dem Ergebnis durchaus zufrieden sein kann. Der Korrelationskoeffizient liegt auch in allen Läufen über 0.9 und auch die Skillscores liegen fast beim Maximum von 1, weshalb man durchaus sagen kann, dass die Temperatur in 850 hPa betrachtet über die gesamte Episode von allen Modellen gut simuliert wurde. 20 Tab. 3:Statistikscores der 1.Episode für alle verfügbaren Modelläufe. A001-A004 entsprechen den Vergleichen der 4 MM5-Domains mit den ERA40-Daten, C001 dem Vergleich AladinERA40. Bei den statistischen Parametern handelt es sich von oben nach unten um: Mittelwert-Modell, Mittelwert-Era-40, Root-mean-square error (RMSE), Standardabweichung-Modell, Standardabweichung-ERA-40, Korrelationskoeffizient (R), Bias corrected RMSE (BCRMSE), relative BIAS (relBIAS), Bias-Score, Fisher-Score, Totalscore, prozentuelle Modellfläche im Auswertegebiet in der über 0.5mm Niederschlag gefallen sind (RR>0.5) MOD-MEAN ERA40-MEAN RMSE BIAS MOD-STD ERA40-STD R BCRMSE REL.BIAS B-SCORE F-SCORE T-SCORE RR> 0.5[%] A001 A002 A003 A004 C001 284.92 285.00 1.30 -0.08 3.30 3.40 0.93 1.30 -0.03 0.99 0.96 0.98 19.81 284.81 285.00 1.07 -0.19 3.33 3.40 0.95 1.06 -0.06 0.97 0.98 0.97 17.15 284.90 285.00 1.42 -0.10 3.24 3.40 0.91 1.41 -0.03 0.99 0.95 0.97 21.09 284.81 285.00 1.06 -0.20 3.29 3.40 0.95 1.05 -0.06 0.97 0.98 0.97 18.08 285.09 285.00 1.01 0.09 3.26 3.40 0.96 1.00 0.03 0.99 0.98 0.99 19.97 Will man sich nun auch ein wenig die Unterschiede der verschiedenen Auflösungen ansehen, so empfiehlt es sich, die Werte jedes einzelnen Prognosezeitschritts heranzuziehen, da sich manche statistischen Parameter über die gesamte Episode wieder ausgleichen können. In Abbildung 5 ist der Fisher-Skillscore für jeden Prognosezeitschritt dargestellt. Zeitschritt 1 kennzeichnet die ersten 6 Stunden des dritten modellierten Tages, da 2 Tage Spinup vorne weg nicht ausgewertet werden. Bei diesem Score sieht man bereits recht schön den Effekt der Domaingröße, denn die beiden untersten (und somit schlechtesten) Kurven sind jene der größten Domain und die überwiegend oberste Kurve ist jene des Aladinmodells. Dennoch sollte man auch hier nicht außer Acht lassen, dass alle Werte zwischen 0.92 und 0.99 liegen, also wirklich sehr gut sind. Die Knicke in den Kurven deuten ein wenig an, dass es die Modelle bei dieser dynamischen Wetterlage nicht immer schaffen, die Feinstrukturen im Inneren sofort richtig zu reproduzieren. 21 Abb. 5: Fisher-Skillscore berechnet zwischen den jeweiligen Era-40 Gitterpunkten und den dort hin interpolierten Modellwerten. Dargestellt ist der Wert für jeden Prognosezeitschritt, also alle 6 Stunden. Als einen weiteren Parameter für die zeitliche Entwicklung der Modelgüte wollen wir uns den Bias-Skillscore (Abbildung 6) anschauen. Dieser gibt Auskunft darüber, ob ein Modell im Mittel zu kalt oder zu warm ist; er soll hauptsächlich dazu dienen, um rasch zu erkennen, ob sich ein Modell immer weiter von der Realität entfernt, es also langsam davon driftet. Dieser Aspekt wird bei einem später folgenden Klimalauf von Bedeutung, bei einer Berechnung über 1 Woche sollte dieses Phänomen noch nicht auftreten. Betrachtet man nun die Kurven in Abbildung 5 so fällt auf, dass alle MM5 Läufe, egal welches Domainsetup, sehr ähnlich verlaufen, hingegen das Aladinmodell einen anderen Charakter aufzeigt. Wie wir schon bei der Berechnung der Statistikwerte über alle Zeitschritte gesehen haben, sind die Modellergebnisse durchaus sehr gut, weshalb diese Schwankungen hier von einem Zeitschritt zum nächsten wohl eher ein Schwingen um den Grundzustand darstellen, denn wenn der Wetterablauf, bei dieser sehr dynamischen Wetterlage ein wenig zu schnell oder zu langsam prognostiziert wird, wirkt sich dies im Bias des jeweiligen Zeitschritts aus. In Summe über den gesamten Prognosezeitraum gleichen sich solche marginalen Schwankungen wieder aus und können vor allem für den Klimalauf außer Acht gelassen werden. 22 Abb. 6: Bias-Skillscore berechnet zwischen den jeweiligen Era-40 Gitterpunkten und den dorthin interpolierten Modellwerten. Abb. 7: Vergleich zwischen Aladinprognose und ERA-40 Feld. Links für den 12.Zeitschritt der Episode, rechts für den 13.. Im oberen Teil der Abbildung ist immer das Differenzfeld (ERA-Aladin) dargestellt, wobei grüne Farben unterschiede kleiner 1°C darstellen, blaue (kühle) Farben negative Werte und rote (warme) Farben positive Werte. Im unteren Teil der Abbildung ist jeweils das ERA-40 Feld des jeweiligen Zeitschritts dargestellt. Um die Tatsache aufzuzeigen, dass es sich bei den Signalen im Bias-Score wirklich nur um ein Schwanken um die Nulllage handelt, sollte man sich zumindest einige meteorologische Felder genauer ansehen. Dazu ist es nützlich, Differenzfelder zu untersuchen. In Abbildung 7 sind diese für die 23 Zeitschritte 12 und 13 der Episode dargestellt, wobei im Vergleich dazu auch immer im Bild darunter das ERA-40 Feld abgebildet ist, um die Streuung in diesem Feld, die ja auch für die Scoreberechnung berücksichtig wird, ein wenig abschätzen zu können. Der Untersuchungssauschnitt, in dem die statistischen Parameter berechnet wurden, ist mit dem schwarzen Rechteck gekennzeichnet. Man erkennt sehr schön, dass im linken oberen Bild, also dem Differenzbild von Zeitschritt 12, ausschließlich grüne und blaue Farbtöne vorkommen. Diese Farben signalisieren, dass die Temperatur im Aladinfeld größer als jene im ERA40-Feld ist und daher die Differenz nahe Null (grün) bis negativ (blau) ist. Im rechten oberen Teil der Abbildung überwiegen eher die wärmeren Farbtöne, was erkennen lässt, dass die Aladintemperatur etwas niedriger ist als jene im ERA-40 Feld. In den beiden ERA-40 Feldern erkennt man das Ende der Föhnperiode und die von Westen herannahende Kaltfront. Wie man an den Differenzbildern schön erkennt ist der Bias im Zeitschritt 12 negativ, im Zeitschritt 13 positiv, das Modell driftet also nicht davon. Zur Darstellung eines Gesamtbildes der 1. Episode können wir den TotalSkillscore (Abbildung 8) hernehmen, denn dieser vereinigt den FisherSkillscore und den Bias-skillscore zu einem Wert, wobei der Fisher-Score doppeltes Gewicht bekommt. Zum einen spiegelt sich darin der sprunghafte Charakter des Bias-Scores, zum anderen aber auch der mit zunehmender Prognosedauer stattfindende Abfall der Prognosegüte, wie dies bereits in den beiden einzelnen Scores zu sehen war. Da die 4 verschiedenen MM5Ergebnisse (A001-A004) zu jedem Zeitschritt einen sehr ähnlichen Bias-Score aufweisen, rücken die Kurven beim Total-Skillscore im Vergleich zum FisherSkillscore ziemlich nahe aneinander, weshalb es in solch einem Fall, wo man schon weiß, dass es im Bias kaum Unterschiede gibt, nahe liegender erscheint, gleich den F-Score zu betrachten, um die Unterschiede der einzelnen Modelläufe klarer zu erkennen. Zieht man nun den Total-Skillscore dazu heran, um zu entscheiden welcher Modellauf verglichen mit den ERA-40 Daten die besten Ergebnisse liefert, so erkennt man in Abbildung 7, dass dies vom treibenden Wettercharakter abhängig ist und die verschiedenen Modelle (Aladin, MM5) bei manchen Zeitschritten besser und bei anderen schlechter sind. Der starke Abfall des T-Scores für das Aladinmodell am Ende der Rechenperiode ist zum Großteil auf den Bias-Score-Abfall zurückzuführen. Hier muss man dann ins Detail schauen und erkennt, dass in den MM5Feldern innerhalb des Auswertegebiets stark positive und ziemlich gleich stark negative Werte auftreten, weshalb der Bias über das Feld gemittelt sehr klein wird. Beim Aladin treten keine derart starken Unterschiede zu den Era-40 Daten auf, aber eben eher in eine Richtung und nicht zu gleich positiv und negativ, weshalb der Gesamtbias des Felds größer wird. Nochmals sei hier darauf hingewiesen, dass der Bias-Skillscore hauptsächlich für die Klimaanwendung entwickelt wurde, um ein mögliches Davondriften des Modells erkennen zu können. 24 Abb. 8: Total –Skillscore für die erste Episode. Dargestellt ist der Wert zu jedem Prognosezeitschritt also alle 6 Stunden. A001-004 bezeichnen die vier MM5-Ergebnisse, C001 das Aladinergebnis. Abschließend kann man feststellen, dass beide Modelle durchaus in der Lage sind, den Wettercharakter der Era-40 Daten widerzuspiegeln. Welcher Modellauf das bodennahe Wetter am besten simuliert, sollte in einem weiteren Schritt, zum Beispiel mittels VERA-Analysen von Stationsdaten, ermittelt werden. Aus dem Vergleich mit den ERA-40 Daten erkennt man, dass es von Zeitschritt zu Zeitschritt gelegentlich zu schwachen Phasenverschiebungen zwischen den Modellen und den Era-40 Daten kommt, was im Bias ersichtlich ist. Generell zeigt sich weiters, dass im Vergleich mit ERA-40 Daten die Größe der Rechendomain entscheidend ist. Wie im F-Score klar ersichtlich ist, werden die Resultate umso besser, je kleiner die Rechendomain ist, also je näher der Rand an der Auswertedomain liegt. Wechseln wir nun zur 2. Episode, wo auch die MM5-Vergleichsrechnungen des IGAM (D005) und der BOKU-Met (B005) mit ausgewertet wurden. Diese Wetterphase ist zum einen durch viel Dynamik, zum anderen durch Zyklogenese im Modellgebiet dominiert. Als ersten Schritt empfiehlt es sich wieder die statistischen Werte berechnet über die gesamte Evaluierungsperiode anzuschauen. In Tabelle 4 sind diese Werte eingetragen. Bereits bei den Mittelwerten über das ganze Feld und alle Zeiten erkennt man, anders als dies bei der vorherigen Episode der Fall war, Unterschiede zwischen den Modelläufen und den ERA-40 Daten um bis zu 0.6°C. 25 Der Korrelationskoeffizient ist bei allen MM5-Läufen unter 0.9 gesunken und liegt nur beim Aladin und dem Aladin-Vergleichslauf über diesem Wert. Diese beiden Läufe sind auch die Einzigen, welche einen sehr guten Bias-Skillscore aufweisen. Tab.4: Statistikscores der 2.Episode für alle verfügbaren Modelläufe. A005-A008 entsprechen den Vergleichen der 4 MM5-Domains mit den ERA40-Daten, C002 dem Vergleich AladinERA40. A000 bezeichnet die mit MM5 nachgerechnete Aladindomain und bei den Spalten B005 und D005 handelt es sich um die Vergleichsrechnungen der BOKU und des IGAM. Bei den statistischen Parametern handelt es sich um die gleichen wie in Tabelle 1. A005 MOD-MEAN ERA40-MEAN RMSE BIAS MOD-STD ERA40-STD R BCRMSE REL.BIAS B-SCORE F-SCORE T-SCORE RR> 0.5[%] B005 277.96 278.09 277.49 277.49 2.00 1.96 0.47 0.60 2.64 2.68 3.35 3.35 0.82 0.83 1.94 1.87 0.14 0.18 0.83 0.76 0.86 0.87 0.85 0.81 21.75 21.55 D005 277.74 277.49 2.11 0.25 2.49 3.35 0.78 2.09 0.08 0.95 0.82 0.88 25.21 A006 A007 A008 A000 C002 277.72 277.49 1.58 0.23 2.98 3.35 0.89 1.56 0.07 0.95 0.93 0.94 20.87 278.06 277.49 2.06 0.58 2.61 3.35 0.81 1.98 0.17 0.77 0.85 0.81 23.12 277.64 277.49 1.54 0.16 3.08 3.35 0.89 1.53 0.05 0.98 0.94 0.96 22.19 277.55 277.49 1.52 0.07 3.27 3.35 0.90 1.52 0.02 1.00 0.95 0.97 23.49 277.49 277.49 1.20 0.00 3.21 3.35 0.94 1.20 0.00 1.00 0.97 0.98 27.75 Bereits bei der Betrachtung dieser für die gesamte Episode gültigen Werte erkennt man, dass die Modelle den Wettercharakter nicht so gut treffen wie dies bei der zuvor betrachteten Wetterlage der Fall war. Woran dies liegt, ob also einzelne Zeitschritte das Ergebnis negativ beeinflussen, oder ob die Modellqualität in diesem Fall generell auf einem niedrigeren Niveau angesiedelt ist wird bei der Betrachtung einzelner Parameter für jeden Zeitschritt extra verdeutlicht. Bei Betrachtung des F-Scores (Abbildung 9) spalten sich die Ergebnisse bereits nach wenigen Zeitschritten deutlich auf. Bis zum 4. Zeitschritt liefern alle Modellergebnisse ziemlich ähnlich gute Scorewerte, doch ab diesem Zeitschritt spalten sich zum einen die Läufe mit verschiedenen MM5Domaingrößen auf und zum anderen beginnen die Modellierungen mit dem Aladin bzw. dem MM5-Aladindomain an Güte zu gewinnen. Ein weiterer auffälliger Punkt in Abbildung 9 sind die doch erheblichen Unterschiede zwischen den als ident angenommenen MM5-Modellierungen (A005, B005, D005). Der permanente Abfall des Skillscores für den D005Lauf lässt die Vermutung aufkommen, dass hier nicht alle einzustellenden Parameter des MM5 gleich verwendet wurden wie bei den Läufen A005 bzw. B005 die doch weit ähnlicher, wenn auch nicht exakt gleich verlaufen. Da die wählbaren physikalischen Parametrisierungen des MM5 bei allen drei Läufen gleich gewählt wurden, liegen die Unterschiede möglicherweise an der unterschiedlichen Aufbereitung der Inputdaten die das MM5 benötigt. Hier sind drei verschiedene Postprozessorschritte nötig, wobei es bei jedem einige 26 Feineinstellungen gibt. Dass die Läufe mit dem großen Domains in diesem Fall so stark abfallen, liegt daran, dass es das Modell nicht schafft eine Tiefdruckentwicklung, die im Inneren des Modellgebiets stattfindet richtig zu simulieren (Abb. siehe Anhang). Bei den übrigen MM5-Läufen sind die Domaingrößen gerade so, dass der Randeinfluss noch ausreicht, um die Tiefdruckentwicklung zumindest in abgeschwächter Form von außen ins Modell zu bringen. Da man von einem mesoskaligen Modell erwarten sollte, dass das im Inneren generierte Wetter besser mit der Realität übereinstimmt, als jenes des treibenden groben Modells, kann davon ausgegangen werden, dass die gewählten physikalischen Parametrisierungen für diesen Wetterablauf unzureichend sind. Aufgrund dieses Phänomens haben wir beschlossen mit dem MM5 auch noch das Aladindomain nachzurechnen, um den direkten Vergleich der beiden Modelle fairer zu machen. Bei der Beurteilung aller in diesem Bericht folgenden Ergebnisse des MM5Aladinlaufs (A000) sollte man nicht vergessen, dass dieser mit einer Auflösung von 30 km gerechnet wurde und erst das darin liegende Nest (über den Alpen) mit 10 km Auflösung gerechnet ist, hingegen das Aladinmodell im gesamten Evaluierungsausschnitt eine Auflösung von 12.5 km aufweist. Abb. 9: Fisher-Skillscore berechnet zwischen den jeweiligen Era-40 Gitterpunkten und den dort hin interpolierten Modellwerten. Dargestellt ist der Wert für jeden Prognosezeitschritt, also alle 6 Stunden für die 2. Episode (5.11.1999 – 8.11.1999). Die Untersuchung des Bias-Skillscores (Abbildung 10) zeigt, dass die Mehrzahl der Modelläufe zum Zeitschritt 4 und 5 ein Problem damit haben, der starken Dynamik des Era-40 Feldes zu folgen. In den Zeitschritten 6 bis 8 dürfte sich der Wettercharakter wieder ein wenig beruhigen, da eigentlich alle Modelle einen über das Feld gemittelten sehr guten Bias vorweisen. Gegen Ende der Wetterlage, wo im Modellinneren eine Tiefdruckentwicklung stattfindet, driften die MM5 Läufe mit der großen Domain davon, da sie diese Entwicklung nicht erkennen und daher ein zu warmes Feld prognostizieren. Die MM5-Läufe, welche für die kleinere Domain gerechnet wurden (A006, 27 A008), erfassen die Tiefdruckentwicklung zum Teil, weshalb der Score gegen Ende nicht weiter abfällt. Das Aladinmodell (C002) hingegen kann sich fast zur Gänze von diesem Einbruch im Score erholen und auch der MM5-AladinVergleichslauf (A000) erfasst diese Wetterentwicklung einigermaßen zufriedenstellend. Abb. 10: Bias-Skillscore berechnet zwischen den jeweiligen Era-40 Gitterpunkten und den dort hin interpolierten Modellwerten. Dargestellt ist der Wert für jeden Prognosezeitschritt, also alle 6 Stunden für die 2. Episode (5.11.1999 – 8.11.1999). Werfen wir abschließen noch einen Blick auf den Total-Skillscore (Abbildung 11) so erkennen wir den Abfall der MM5-Läufe für die große Domain am Beginn des letzten Drittels des Prognosefensters sehr deutlich. Der Score sinkt gegen Ende der Episode auf 0.5 ab, weshalb man hier nicht mehr von einer gelungenen Prognose sprechen kann. Bei dieser Wetterlage ist eindeutig die Größe der verwendeten Domain von entscheidender Bedeutung, weshalb das Aladinmodell am besten abschneidet, aber auch das MM5-Modell gerechnet für die Aladindomain ganz gute Ergebnisse liefert. Die Wetterlage scheint eine große Modellherausforderung darzustellen, denn auch die operationelle Prognose des ECMWF hat die genaue Tiefdruckentwicklung, die das MM5 bei großem Domainsetup nicht richtig erfasst, erst wenige Tage vorher einigermaßen korrekt prognostiziert. Da man alle Modelle nahezu mit der Wirklichkeit treibt (ERA-40 Daten) werden die Ergebnisse immer besser je näher man mit diesen Daten an das Evaluierungsgebiet rückt, also die Domain verkleinert. Das mesoskalige Modell hat in diesem Fall dann weniger Möglichkeiten eine „falsche“ eigene Wetterentwicklung zu simulieren. Ein geeigneter Test, um die Domaingröße objektiv abschätzen zu können, also zu erkennen, ab welcher Größe das MM5 in der Lage ist bessere Strukturen zu produzieren als jene die von 28 außen vorgegebne werden (bei den ERA-40 Daten ist dies über Europa eigentlich fast nicht mehr möglich) würde darin bestehen, dass MM5 mit einer ECMWF - Prognose passender Auflösung (T106) zu betreiben und dann die Ergebnisse mit Messwerten zu vergleichen. Nachdem die Temperatur in 850 hPa bei der ersten betrachteten Episode sehr gut von den Modellen reproduziert wurde, ist dies bei der zweiten Episode nicht mehr so eindeutig der Fall. Das Aladin liefert hier bei der Temperatur zwar die besten Resultate, dies liegt aber auch daran, dass sowohl die Domaingröße als auch die Auflösung am feinsten sind und daher die „Wahrheit“ der treibenden Randdaten (ERA-40) ihren Einfluss bis ins Evaluierungsgebiet habt. Abb. 11: Total-Skill Score des Parameters Temperatur in 850hPa für die 2.Episode. Die mit A beginnenden Abkürzungen bezeichnen die MM5-Berechnungen von ARC-Sys; B005 jene der BOKU-Met und D005 die Berechnung des IGAM. C002 ist das Ergebnis der Aladinvalidierung dieser Episode. Geopotential in 850 hPa Für das Geopotential und alle weiteren zu betrachtenden Parameter wollen wir nur mehr den Total-Skillscore betrachten. Die Tücken bei der Interpretation dieser Größe wurden bereits bei der Temperatur anhand der Einzelscores erläutert. In Abbildung 12 sehen wir die Scores für die erste Episode. Recht deutlich zu erkennen ist der Unterschied zwischen den verschiedenen MM5-Domaingrößen. 29 Abb. 12 Total Skillscore des Parameters Geopotential der 850 hPa Druckfläche für die Episode 1. Auch hier ist wiederum die große Domain schlechter als die kleinere, was am selben Phänomen wie bei der Temperatur, nämlich den Treiberdaten liegt. Ob nun eine feinere Auflösung bessere Ergebnisse liefert oder doch eine gröbere ist hingegen nicht erkennbar, denn bei den kleineren Domains (A002/A004) liefert die feinere Auflösung die besseren Ergebnisse, hingegen bei den großen Domains (A001/A003) die Gröbere. Diese Entscheidung muss letztendlich beim Vergleich mit Messwerten (z.B. VERA) erfolgen. Das Aladin kann diese Wetterlage scheinbar wieder perfekt reproduzieren, zumindest was den Vergleich mit den ERA-40 Daten betrifft. Bei der zweiten Episode (Abbildung 13) sehen wir ein ähnliches Bild, wie wir es schon bei der Temperatur hatten. Man erkennt auch hier recht deutlich den dramatischen Abfall der Prognosegüte der MM5-Läufe gegen Ende des Vorhersagefensters. Anders als bei der Temperatur ist beim Geopotential der 850 hPa Druckfläche der MM5-Lauf der BOKU-Met der schlechteste und jener des IGAM zeigt relativ gute Werte an. Betrachtet man so wie bei der Temperatur nur die Felder der verschiedenen MM5-Betreiber (A005, B005 und D005) so erkennt man, dass beim Geopotential das Ergebnis des IGAM sehr gut ist, hingegen jenes von BOKU-Met am schlechtesten. Die Tatsache, dass der Skillscore unterschiedlicher meteorologischer Parameter nicht immer beim gleichen Modellbetreiber am schlechtesten ist, lässt erkennen, dass nicht nur die unterschiedliche Hardware (IGAM, BOKU), sondern sehr wohl verschiedene Modellsetups oder auch Aufbereitung der Inputdaten zu den unterschiedlichen Ergebnissen führten. 30 Abb. 13: Total Skillscore des Parameters Geopotential der 850 hPa Druckfläche für die Episode 2. Geopotential in 500 hPa Da die Skillscore-Auswertung des Geopotentials der 500 hPa Druckfläche keinen gravierenden Unterschied zu jener der 850 hPa Druckfläche aufweist, wird diese hier nicht näher erläutert. Die entsprechenden Abbildungen der diversen Skillscores sind der Vollständigkeit wegen im Anhang zu diesem Bericht enthalten, sollen hier aber nicht näher diskutiert werden. Spezifische Feuchte in 700 hPa Die spezifische Feuchte in 700 hPa repräsentiert einen meteorologischen Parameter, an dem man sehr schön frontale Systeme erkennen kann. Da die Lage von solchen Systemen oft auch vom operationellen Wettervorhersagemodell nicht exakt getroffen wird, sollte man dies auch nicht von unseren hier validierten Modellen erwarten, schon gar nicht dann, wenn noch kein optimales Parametersetup gefunden wurde. Am Total-Skillscore in Abbildung 14 für die Episode 1 und Abbildung 15 für die Episode 2 sieht man bereits, dass dieser meteorologische Parameter losgelöst von den übrigen ist, denn weder der starke gebündelte Abfall der Episode 2 ist hier zu erkennen, noch der recht homogene Lauf der Episode 1 wie dies bei den anderen Parametern der Fall war. Der Total-Skillscore der spezifischen Feuchte zeigt auch nur bedingt den Vorteil der kleineren Domain an und zwischen den unterschiedlichen Gitter-Auflösungen (45km/30km) kommt auch kein deutlicher Unterschied heraus. Signifikant in den beiden Abbildungen (14 und 15) ist hingegen der Tagesgang im Total-Skillscore der spezifischen Feuchte des Aladin-Modells. Immer um 00 UTC erreicht der Skillscore seinen Maximalwert von 1. Dieses Phänomen sollte in weiteren Tests im Auge behalten werden und mit den Modellbetreibern diskutiert werden. Da der Niederschlag eine wichtige Zielgröße ist, wollen wir uns als letzten Parameter diesen anschauen. 31 Abb. 14: Total Skillscore der spezifischen Feuchte der 700 hPa Druckfläche für die Episode 1. Abb. 15: Total Skillscore der spezifischen Feuchte der 700 hPa Druckfläche für die Episode 2. Niederschlagsverteilung Bei der Niederschlagsverteilung innerhalb des Feldes wurde keiner der oben definierten traditionellen statistischen Werte berechnet, sondern einfach die Anzahl der Gitterpunkte, an denen mehr als 0.5mm Niederschlag gefallen sind, in Relation zur gesamten Gitterpunktsanzahl gesetzt. Der Wert auf der yAchse der Abbildungen 16 und 17 stellt also den Flächenanteil des Evaluierungsgebiets dar, in dem Niederschlag gefallen ist. Die starken Unterschiede der verschiedenen Modellbetreiber zum 1.Zeitschritt lassen sich damit erklären, dass beim MM5 aus akkumulierten Werten 6h-Werte rückgerechnet werden mussten und daher der 1.Wert von den davor 32 gefallenen Niederschlagsmengen und der Methode der Deakkumulierung abhängt. Diese erfolgte derzeit offensichtlich nicht. Abgesehen davon passen die Kurven der verschiedenen Modelläufe sehr gut zusammen, weshalb man sagen kann, dass alle in etwa gleich viel Niederschlag im Evaluierungsgebiet fallen lassen, ob hingegen auch die räumliche Verteilung passt, muss mit Beobachtungen verglichen werden und kann aus diesem ersten Test nicht abgeleitet werden. Dieser Punkt wird speziell für die Wahl der physikalischen Parametrisierungen von Konvektions- und Feuchteregime wichtig. Abb. 16: Flächenanteil des Gebiets mit Niederschlag für die Episode 1. Abb. 17: Flächenanteil des Gebiets mit Niederschlag für die Episode 2. 33 Rechenzeit Ein wesentlicher Punkt bei der Beurteilung der verschiedenen Modelläufe ist die dafür benötigte Rechenzeit. Diese richtet sich zum einen nach der Anzahl der verwendeten Gitterpunkte und zum anderen nach dem Zeitschritt mit dem man das Modell betreibt. Selbstverständlich hängt sie auch von der verwendeten Computerinfrastruktur und den verwendeten Modellparametrisierungen ab. Für das Aladinmodell wurde das Domain-Setup bereits ausgewählt. Beim Modell MM5 ist der Faktor Rechenzeit ein wesentlicher Teil der Evaluierung und wird sicherlich mitentscheidend sein, welche Domain für die Klimaläufe verwendet werden wird. Man hat nicht viel von einem Modell, welches exakt das aufgetretene Wetter simulieren kann, dafür aber länger braucht, als der Simulationszeitraum ist. Für Klimaanwendungen, bei denen ja mehrere Jahre gerechnet werden sollen, sollte das verwendete Modell in der Lage sein, um einiges schneller als realtime zu rechnen. In Tabelle 5 sind die verschiedenen Rechenzeiten der einzelnen Läufe aufgelistet. Die Fälle A001-004 betreffen die erste Episode die Zeilen A005-A008 die zweite. Will man also die beiden Episoden vergleichen, um zu sehen welchen Einfluss die jeweilige Wetterlage auf das Ergebnis hat, so kann man Lauf A001 mit A005, A002 mit A006 usw. vergleichen. Bei drei der vier Domain-setups erkennt man, dass die Episode 2 ein wenig rechenintensiver war, lediglich beim dritten Setup ist dies umgekehrt. In diesem Fall kann man davon ausgehen, dass der Rechner beim dritten Lauf der Episode 1 (A003) nicht immer ausschließlich für die Modellierung verwendet wurde und daher die Episode 2, die vielleicht über das Wochenende gerechnet wurde, schneller fertig war. Generell betrachtet ist der Unterschied zwischen den beiden Episoden in einer Größenordnung die man bei der Evaluierung vernachlässigen kann. Betrachtet man nun die Unterschiede der verschiedenen Domainsetups (A001 – A004) so treten doch erhebliche Rechenzeitunterschiede auf. Die Berechnung der kleineren Domain ist im Vergleich zur größeren bei gleicher Auflösung (z.B. A002/A001) um ca. 30% früher fertig, während die Berechnung mit feinerer Auflösung bei gleicher Domaingröße etwa 3.5x so lange dauert wie die mit grober Auflösung. Tab. 5: Rechenzeit der verschiedenen Simulationen: Die Modelläufe A000-A008 wurden alle vom ARC-Sys durchgeführt und immer die gleiche Infrastruktur verwendet. A001-A004 sind die Läufe für die 4 versch. Domains der 1.Episode, A005-A008 jene der 2.Episode. D005 ist das Ergebnis des IGAM und B005 jenes von BOKU-Met. Modellauf Laufzeit (h) A001 A002 A003 A004 A005 A006 A007 A008 A000 D005 B005 3.4 2.5 11.9 8.7 3.6 2.6 11.4 9.1 6.4 6.9 17.6 Infrastruktur Compaq ES40 6/667 Model 1 (4CPUs (Alpha), 667 MHz, 2GB Memory, True64Unix 5.1. Athlon MP1800 - 2CPUs Intel XEON 1700 - 1CPU, Redhat-7.1 34 Synopsis – Schlussfolgerungen Abschließend kann festgestellt werden, dass die MM5-Läufe von ARC-SYS, IGAM und BOKU-Met trotz scheinbar gleichem Modellsetup unterschiedliche Resultate geliefert haben, was als nächster Schritt sicher einer Klärung bedarf. Als weiterer Punkt kann festgestellt werden, dass die ERA-40 Daten schon dermaßen gut die Realität wieder geben, dass eine Aussage über die nötige Domaingröße mit diesen Tests nicht möglich ist, da man bei kleinerer Domainwahl mit der treibenden Realität (ERA-40) näher am Evaluierungsgebiet ist und damit zwangsläufig die Resultate bei kleinerer Domainwahl besser werden. Zieht man nun daraus den Schluss, das die kleinstmögliche Domain, die besten Resultate liefert, so mag dies für ERA-40 Daten über Europa zutreffen, da sie fast das reale Wetter widerspiegeln. Betreibt man die Modelle später hingegen mit Klimaänderungsszenarien, so sollte das regionale Modell in der Lage sein, Phänomene wie beispielsweise die Tiefdruckentwicklung im Modellinneren ohne genaue Vorgaben von außen selbstständig zu simulieren. Mit den Parametersetup der Episode 2 ist dies noch nicht gelungen. Ausblick – weitere Schritte Um ein für Klimaanwendungen optimales Modellsetup zu finden ist aus unserer Sicht nun folgende Vorgehensweise sinnvoll: Zuerst gilt es die Ursachen des Unterschieds zwischen den Ergebnissen von ARC-SYS, BOKU-Met und IGAM zu klären und möglicherweise nach erfolgter Übereinstimmung des Set-ups einen neuerlichen Test zu rechnen, um zu sehen ob und wenn ja welcher Unterschied alleine Hardware-bedingt auftritt. Als weiterer Schritt, um die MM5- Ergebnisse konsistent zu machen, sollte die Niederschlagsdeakkumulierung vereinheitlicht werden, so dass die Werte bereits ab dem 1. Zeitschritt der Evaluierungsperiode zur Verfügung stehen. Für den Test mit der MM5-Aladindomain-Version muss man sich überlegen, wie man darin das Nest legt, da ja nur dieses in der feinen Auflösung von 10 km gerechnet wird. Da die äußere Domain ja doch um einiges kleiner als die übrigen MM5-Domains ist, stellt sich die Frage, ob man dann das Nest nicht ähnlich groß wie die äußere Domain ansetzt, damit das Evaluierungsgebiet (siehe Abbildung 4) und damit der ehrliche Vergleich mit dem Aladin für großräumige Vergleiche nicht zu klein wird. Sind diese eher schnell zu entscheidenden Fragen geklärt, sollte ein geeigneter Test zur definitiven Entscheidung, welches Domain-Setup, die besten Resultate liefert, erfolgen. Dieser könnte zum Beispiel so wie schon weiter oben beschrieben derartig aussehen, dass man das mesoskalige Modell mit einer ECMWF - Vorhersage verringerter Auflösung betreibt und dann anhand von Stationsdaten oder ERA-40 auswertet, welches Setup die besten Resultate liefert. Ob man für diesen Test Daten des ECMWF- 35 Ensembles heranzieht und ob solche Daten leicht als MM5-Input aufbereitet werden können oder ob es noch andere leicht verfügbare brauchbare Daten gibt, soll mit allen Projektpartnern diskutiert werden. Ist die Domainlage und die Anzahl bzw. Lage der Niveaus des MM5-Modells entschieden, sollte als nächster Test ein Vergleich mit dem von Günther Zängl modifiziertem MM5 erfolgen. Dieser Vergleichstest kann gleichzeitig zum Austesten der Grenzschichtparametrisierung herangezogen werden und wird vom BOKU-Met durchgeführt. Um zu einer Finalversion des MM5-Setups für Klimamodellierung im Alpenraum zu kommen, sind zahlreiche Testrechnungen mit unterschiedlichen physikalischen Parametrisierungen erforderlich. Aufgrund der vorgegebenen Termine sind bereits Episoden bekannt, an Hand deren Wetterverläufe die Tests zügig voran gehen sollten. Da sämtliche Tools zur Evaluierung bereits entwickelt wurden, bedarf es zur optimalen Auswertung noch des Schritts der Automatisierung. Aus diversesten Gründen ist es bisher noch nicht gelungen, Modellergebnisse, unmittelbar nachdem die Berechnungen abgeschlossen wurden, in geeigneter Weise für andere Projektpartner verfügbar zu machen und diese sofort über die Verfügbarkeit der Daten zu verständigen. Dieser Prozess bedarf zum einen einer stabilen Austauschplattform (FTP-Bereich), zum anderen einer klaren Definition welche Daten wer für wen bereitstellt. Beides sollte in einem kommenden Workshop diskutiert und fixiert werden. 36 Literatur Crescenti, G. H. (1997): A look back on two decades of Doppler sodar comparison studies. Bull. Amer. Meteor. Soc. 78(4), 651–673. Grell G.A., Dudhia J. and Stauffer D.R. (1994): A description of the fifth-generation Penn State/NCAR Mesoscale Model (MM5). NCAR technical note TN-398+STR, 122 pp., National Center for Atmospheric Research, Boulder, CO, USA. Hanna, S. R. and R. J. Paine (1989): Hybrid Plume Dispersion Model (HPDM), development and evaluation. J. Appl. Meteorol. 28(2), 206–224. Kållberg, P., A. Simmons, S. Uppala and M. Fuentes: The ERA-40 archive. ERA-40 Project Report Series No. 17 September 2004 Klug,W., G. Graziani, G. Grippa, D. Pierce, and C. Tassone (1992): Evaluation of Long Range Atmospheric Transport Models Using Environmental Radioactivity Data from the Chernobyl Accident: The ATMES Report. Elsevier Applied Science, London, 366 pp. Mosca, S., R. Bianconi, R. Bellasio, G. Graziani, andW. Klug (1998a): ATMES II – Evaluation of long-range dispersion models using data of the 1st ETEX release. EUR 17756 EN, Office for Official Publications of the European Communities, L-2985 Luxembourg, 459 pp. + app. Mosca, S., G. Graziani, W. Klug, R. Bellasio, and R. Bianconi (1998b): A statistical methodology for the evaluation of long-range atmospheric dispersion models: an application to the ETEX exercise. Atmos. Environ. 32(24), 4307–4327. Sachs, L. (1992): Angewandte Statistik. Springer-Verlag, Berlin, 846 pp. Pichler, H. and R. Steinacker (1975): Zur Frage der Zyklogenese in den mittleren Breiten unter Ber¨ucksichtigung von freiwerdender Kondensationsw¨arme. Arch. Met. Geoph. Biokl. A24, 117–129. Steinacker, R., C. Häberli, W. Pöttschacher (2000): A Transparent Method for the Analysis and Quality Evaluation of Irregularly Distributed and Noisy Observational Data. Monthly Weather Review, 128, 2303-2316 Stohl, A., M. Hittenberger, and G. Wotawa (1998): Validation of the Lagrangian particle dispersion model Flexpart against large-scale tracer experiment data. Atmos. Environ. 32(24), 4245–4264. Taylor, K. E. (2001): Summarizing multiple aspects of model performance in a single diagram. J. Geophys. Res. 106(D7), 7183–7192. Zängl, G. (2003): A generalized sigma coordinate system for the MM5, Mon. Wea. Rev., 131, 2875-2884. Zängl, G., L. Gantner, G. Hartjenstein, and H. Noppel (2004): Numerical errors above steep topography: A model intercomparison, Meteorol. Zeitschrift, 13, 69-76 37 Bildanhang Im folgenden Bildanhang sind jeweils der Bias- und der Fisher-Skillscore für die Parameter H850, H500 und Q700 dargestellt. Zuerst immer für die erste Episode (A001,A002, A003,A004,C001) und gleich anschließend für die 2.Episode (A005, A006, A007, A008, C002, B005, D005, A000). 38 39 40 41 42 Die Vergleichsplots der einzelnen Läufe und Parameter zwischen ERA40 und dem Modell finden sich aufgrund der Dateigröße am FTP Server. 43