Analysierbares, Cloud-optimiertes (ARCO) ERA5 ist die fünfte Generation der Atmosphärischen Reanalyse des Europäischen Zentrums für durchschnittliche Wetterprognosen (ECMWF) und bietet stündliche Schätzungen einer großen Anzahl von atmosphärischen, landbezogenen und ozeanischen Klimavariablen. Das Google Cloud Public Dataset-Programm hostet ERA5-Daten, die von 1940 bis Mai 2023 reichen. Dabei wird die Erde auf einem 30 km großen Raster abgebildet und die Atmosphäre mit 137 Ebenen von der Oberfläche bis zu einer Höhe von 80 km
Eine Reanalyse ist das „vollständigste Bild, das derzeit für vergangenes Wetter und Klima möglich ist“. Reanalysen werden durch die Einbindung einer Vielzahl von Datenquellen in numerische Wettervorhersagemodelle erstellt. Meteorologisch wertvolle Variablen für Land und Atmosphäre wurden aufgenommen und von Grib-Daten in Zarr konvertiert (ohne weitere Änderungen), um eine cloudoptimierte Version von ERA5 zu erhalten. Darüber hinaus wird eine Open-Source-Codebasis bereitgestellt, um die Herkunft der Daten und gängige Forschungsworkflows zu demonstrieren. Dieses Dataset enthält sowohl Raw-Dateien (grib) als auch cloud-optimierte Dateien (zarr).
Anwendungsfälle
ERA5-Daten können in vielen verschiedenen Anwendungen verwendet werden, z. B. in:
- ML-Modelle trainieren, die die Auswirkungen des Wetters auf verschiedene Phänomene vorhersagen
- ML-Modelle zum Prognostizieren des Wetters trainieren und auswerten
- Berechnung von Klimatologien, d. h. des durchschnittlichen Wetters in einer Region über einen bestimmten Zeitraum
- Visualisierung und Untersuchung historischer Wetterereignisse wie Hurrikan Sandy
Dank der offenen Datenpolitik der Copernicus Climate Change and Atmosphere Monitoring Services und des ECMWF steht dieses Dataset im Rahmen des Google Cloud Public Dataset-Programms kostenlos zur Verfügung. Lizenzinformationen finden Sie unten.
Dataset-Struktur
Der ERA5-Datensatz wird in drei Hauptunterverzeichnissen gespeichert: raw/
, co/
und ar/
. raw/
enthält Quelldaten, die vom ECMWF aufgenommen wurden. co/
enthält eine „cloud-optimierte“ Version: Dies sind Daten, die ohne weitere Verarbeitung direkt in ein für die Cloud optimiertes Format (Zarr) in ihrem nativen Raster ohne weitere Bearbeitung konvertiert werden. ar/
(oder „analysebereit“) enthält ein ML-fähiges Dataset. Diese Version des Korpus befindet sich in einem regulären Breiten-/Längengrad-Raster und vereint Oberflächen- und Atmosphärendaten in einem einzigen Zarr.
Cloud-optimierte Daten
Unser cloudoptimiertes Corpus enthält fünf separate Zarr-Datasets, die sich im Cloud Storage-Bucket gcp-public-data-arco-era5
befinden:
- Feuchtigkeit auf Modellebene: Die mengenbezogenen Variablen und das Ozonmischungsverhältnis auf Modellebene.
- Wind auf Modellebene: Divergenz, Eckpunkt, Temperatur und vertikale Geschwindigkeit auf Modellebene.
- Einstufige Oberfläche: Das Oberflächengeopotenzial und der Logarithmus des Oberflächendrucks an der Oberfläche des Modells.
- Einstufige Prognose: 21 Variablen, die sich auf die solare/langwellige Strahlung an der Oberfläche, die Niederschlagsmenge und -art sowie die Schneehöhe und den Wassergehalt beziehen.
- Einstufige Reanalyse: 38 Variablen in Bezug auf Bodenfeuchte/Temperatur, Winde in Oberflächennähe, Temperatur und Feuchtigkeit in Oberflächennähe, Gesamtwasserdampfsäule und Wolkenkondensat, Gesamtwolkenbedeckung und Luftdruck auf Meereshöhe.
Weitere Informationen dazu, welche Variablen in den einzelnen Datensätzen enthalten sind, finden Sie in den Beispiel-Jupyter-Notebooks im GitHub-Repository.
Bereitstellbare Daten
Der für die Analyse in Google Cloud geeignete Corpus ist ein Zarr-Datensatz, der die Jahre 1959–2022 abdeckt.
Die neueste Version der Daten finden Sie im Cloud Storage-Bucket gcp-public-data-arco-era5
:
- 1959–2022, vollständiges Druckniveau: 31 Oberflächen- und Druckpegelvariablen (für alle 37 Druckpegel) mit einer Breiten-/Längengradauflösung von 0,25°/0,25° in Einheiten von 1 Stunde.
Datenzugriff
Im folgenden Code-Snippet wird der für die Analyse bereite Datensatz geladen und eine Zusammenfassung des Datensatzes angezeigt:
import xarray era5 = xarray.open_zarr( "gs://gcp-public-data-arco-era5/ar/1959-2022-full_37-1h-0p25deg-chunk-1.zarr-v2", chunks={'time': 48}, consolidated=True, ) era5
Weitere Beispiele für die Verwendung von ARCO-ERA5-Daten in Python finden Sie in den Beispiel-Jupyter-Notebooks.
Über das Dataset
Datenquelle: ECMWF – generiert mit Informationen aus dem Klimadatenspeicher des Copernicus Climate Change Service (C3S)
Kategorie: Atmosphärische Wissenschaft, Datenassimilation, Klima, Wolkenoptimierung, Meteorologie, Reanalyse, Wetter, Wissenschaft und Forschung.
Verwendung: Die Nutzung von ERA5-Daten ist kostenlos, weltweit, nicht exklusiv, gebührenfrei und unbefristet. Alle Nutzer von Copernicus-Produkten müssen einen klaren und sichtbaren Hinweis auf das Copernicus-Programm geben. Weder die europäische Kommission noch die ECMWF ist für eine Verwendung der darin enthaltenen Copernicus-Informationen oder -Daten verantwortlich. Vollständige Informationen zur Verwendung finden Sie in der Lizenz zur Verwendung von Copernicus-Produkten.
Aktualisierungshäufigkeit: Das ERA5-Dataset wird derzeit im Programm für öffentliche Google Cloud-Datasets nicht aktualisiert. Das Programm bietet ERA5-Daten zwischen 1940 und Mai 2023.
Format: Rohdateien haben das Format .grib
und NetCDF, verarbeitete Dateien haben das Format .zarr
.
Cloud Storage-Speicherort: Daten werden im Bucket gcp-public-data-arco-era5
gespeichert, der sich in der us-central1
-Region befindet.
Roadmap für Datasets: Entwicklungspläne für diesen Google Cloud-Datensatz sind im ERA5-Repository verfügbar.