ERA5-Daten

Analysierbares, Cloud-optimiertes (ARCO) ERA5 ist die fünfte Generation der Atmosphärischen Reanalyse des Europäischen Zentrums für durchschnittliche Wetterprognosen (ECMWF) und bietet stündliche Schätzungen einer großen Anzahl von atmosphärischen, landbezogenen und ozeanischen Klimavariablen. Das Google Cloud Public Dataset-Programm hostet ERA5-Daten, die von 1940 bis Mai 2023 reichen. Dabei wird die Erde auf einem 30 km großen Raster abgebildet und die Atmosphäre mit 137 Ebenen von der Oberfläche bis zu einer Höhe von 80 km

Eine Reanalyse ist das „vollständigste Bild, das derzeit für vergangenes Wetter und Klima möglich ist“. Neuanalysen werden anhand der Anpassung einer Vielzahl von Datenquellen über numerische Wettervorhersagemodelle (NWP) erstellt. Meteorologisch wertvolle Variablen für Land und Atmosphäre wurden aufgenommen und von Grib-Daten in Zarr konvertiert (ohne weitere Änderungen), um eine cloudoptimierte Version von ERA5 zu erhalten. Darüber hinaus wird eine Open-Source-Codebasis bereitgestellt, um die Herkunft der Daten und gängige Forschungsworkflows zu demonstrieren. Dieses Dataset enthält sowohl Raw-Dateien (grib) als auch cloud-optimierte Dateien (zarr).

Anwendungsfälle

ERA5-Daten können in vielen verschiedenen Anwendungen verwendet werden, einschließlich:

  • ML-Modelle trainieren, die die Auswirkungen des Wetters auf verschiedene Phänomene vorhersagen
  • ML-Modelle zum Prognostizieren des Wetters trainieren und auswerten
  • Berechnung von Klimatologien, d. h. des durchschnittlichen Wetters in einer Region über einen bestimmten Zeitraum
  • Visualisierung und Untersuchung historischer Wetterereignisse wie Hurrikan Sandy

Dank der offenen Datenpolitik des Copernicus Climate Change and Atmosphere Monitoring Services und ECMWF ist dieses Dataset im Rahmen des Google Cloud Public Dataset-Programms kostenlos verfügbar. Lizenzinformationen finden Sie unten.

Dataset-Struktur

Das ERA5-Dataset wird in drei Kernverzeichnissen gespeichert: raw/, co/ und ar/. raw/ enthält Quelldaten, die aus ECMWF aufgenommen wurden. co/ enthält eine „cloud-optimierte“ Version: Dies sind Daten, die ohne weitere Verarbeitung direkt in ein für die Cloud optimiertes Format (Zarr) in ihrem nativen Raster ohne weitere Bearbeitung konvertiert werden. ar/ (oder „analysebereit“) enthält ein ML-fähiges Dataset. Diese Version des Korpus befindet sich in einem normalen Breiten-/Längengradraster und vereint Oberflächen- und atmosphärische Daten zu einem einzigen Zarr.

Cloud-optimierte Daten

Unser cloud-optimierter Korpus enthält fünf separate Zarr-Datasets im Cloud Storage-Bucket gcp-public-data-arco-era5:

  • Feuchtigkeit auf Modellebene: Die mengenbezogenen Variablen und das Ozonmischungsverhältnis auf Modellebene.
  • Wind auf Modellebene: Divergenz, Eckpunkt, Temperatur und vertikale Geschwindigkeit auf Modellebene.
  • Einstufige Oberfläche: Das Oberflächengeopotenzial und der Logarithmus des Oberflächendrucks an der Oberfläche des Modells.
  • Einstufige Prognose: 21 Variablen, die sich auf die solare/langwellige Strahlung an der Oberfläche, die Niederschlagsmenge und -art sowie die Schneehöhe und den Wassergehalt beziehen.
  • Einstufige Reanalyse: 38 Variablen in Bezug auf Bodenfeuchte/Temperatur, Winde in Oberflächennähe, Temperatur und Feuchtigkeit in Oberflächennähe, Gesamtwasserdampfsäule und Wolkenkondensat, Gesamtwolkenbedeckung und Luftdruck auf Meereshöhe.

Weitere Informationen dazu, welche Variablen in den einzelnen Datasets enthalten sind, finden Sie in den Beispiel-Jupyter-Notebooks im GitHub-Repository.

Analysebereite Daten

Der analysebereite Korpus von Google Cloud ist ein Zarr, der die Jahre 1959–2022 abdeckt. Die neueste Version der Daten finden Sie im Cloud Storage-Bucket gcp-public-data-arco-era5:

  • 1959–2022, vollständiges Druckniveau: 31 Oberflächen- und Druckpegelvariablen (für alle 37 Druckpegel) mit einer Breiten-/Längengradauflösung von 0,25°/0,25° in Einheiten von 1 Stunde.

Datenzugriff

Mit dem folgenden Code-Snippet wird das analysefähige Dataset geladen und eine Zusammenfassung des Datasets angezeigt:

import xarray
era5 = xarray.open_zarr(
    "gs://gcp-public-data-arco-era5/ar/1959-2022-full_37-1h-0p25deg-chunk-1.zarr-v2",
    chunks={'time': 48},
    consolidated=True,
)
era5

Weitere Beispiele zur Verwendung von ARCO-ERA5-Daten in Python finden Sie in den Beispiel-Jupyter-Notebooks.

Über das Dataset

Dataset-Quelle: ECMWF – Generiert mit Copernicus Climate Change Service (C3S) Climate Data Store-Informationen.

Kategorie: Atmosphärische Wissenschaft, Datenassimilation, Klima, Wolkenoptimierung, Meteorologie, Reanalyse, Wetter, Wissenschaft und Forschung.

Verwendung: Die Verwendung von ERA5-Daten ist kostenlos, weltweit, nicht exklusiv, gebührenfrei und unbefristet. Alle Nutzer von Copernicus-Produkten müssen einen klaren und sichtbaren Hinweis auf das Copernicus-Programm geben. Weder die europäische Kommission noch die ECMWF ist für eine Verwendung der darin enthaltenen Copernicus-Informationen oder -Daten verantwortlich. Ausführliche Informationen zur Verwendung finden Sie unter Lizenz für die Verwendung von Copernicus-Produkten.

Aktualisierungshäufigkeit: Das ERA5-Dataset wird derzeit im Programm für öffentliche Google Cloud-Datasets nicht aktualisiert. Das Programm bietet ERA5-Daten zwischen 1940 und Mai 2023.

Format: Rohdateien haben das Format .grib und NetCDF, verarbeitete Dateien haben das Format .zarr.

Cloud Storage-Speicherort: Daten werden im Bucket gcp-public-data-arco-era5 gespeichert, der sich in der us-central1-Region befindet.

Dataset-Roadmap: Entwicklungspläne für dieses Google Cloud-Dataset sind im ERA5-Repository verfügbar.