ERA5-Daten

Analysierbares, Cloud-optimiertes (ARCO) ERA5 ist die fünfte Generation der Atmosphärischen Reanalyse des Europäischen Zentrums für durchschnittliche Wetterprognosen (ECMWF) und bietet stündliche Schätzungen einer großen Anzahl von atmosphärischen, landbezogenen und ozeanischen Klimavariablen. Das Google Cloud Public Dataset-Programm hostet ERA5-Daten, die von 1940 bis Mai 2023 reichen. Dabei wird die Erde auf einem 30 km großen Raster abgebildet und die Atmosphäre mit 137 Ebenen von der Oberfläche bis zu einer Höhe von 80 km

Eine Reanalyse ist das „vollständigste Bild, das derzeit für vergangenes Wetter und Klima möglich ist“. Neuanalysen werden durch die Anpassung einer Vielzahl von Datenquellen über numerische Wettervorhersagemodelle (NWP) erstellt. Meteorologisch wertvolle Variablen für Land und Atmosphäre wurden aufgenommen und von Grib-Daten in Zarr konvertiert (ohne weitere Änderungen), um eine cloudoptimierte Version von ERA5 zu erhalten. Darüber hinaus wird eine Open-Source-Codebasis bereitgestellt, um die Herkunft der Daten und gängige Forschungsworkflows zu demonstrieren. Dieses Dataset enthält sowohl Raw-Dateien (grib) als auch cloud-optimierte Dateien (zarr).

Anwendungsfälle

ERA5-Daten können in vielen verschiedenen Anwendungen verwendet werden, z. B. in:

  • ML-Modelle trainieren, die die Auswirkungen des Wetters auf verschiedene Phänomene vorhersagen
  • ML-Modelle zum Prognostizieren des Wetters trainieren und auswerten
  • Berechnung von Klimatologien, d. h. des durchschnittlichen Wetters in einer Region über einen bestimmten Zeitraum
  • Historische Wetterereignisse wie Hurrikan Sandy visualisieren und untersuchen

Dank der offenen Datenpolitik der Copernicus Climate Change and Atmosphere Monitoring Services und des Europäischen Zentrums für Wettervorhersage steht dieses Dataset im Rahmen des Google Cloud Public Dataset-Programms kostenlos zur Verfügung. Lizenzinformationen finden Sie unten.

Dataset-Struktur

Der ERA5-Datensatz wird in drei Hauptunterverzeichnissen gespeichert: raw/, co/ und ar/. raw/ enthält Quelldaten, die vom ECMWF aufgenommen wurden. co/ enthält eine „cloud-optimierte“ Version: Dies sind Daten, die ohne weitere Verarbeitung direkt in ein für die Cloud optimiertes Format (Zarr) in ihrem nativen Raster ohne weitere Bearbeitung konvertiert werden. ar/ (oder „analysebereit“) enthält ein ML-fähiges Dataset. Diese Version des Korpus befindet sich in einem regulären Breiten-/Längengradraster und fasst Oberflächen- und atmosphärische Daten in einem einzigen Zarr zusammen.

Cloud-optimierte Daten

Unser cloudoptimierter Corpus enthält fünf separate Zarr-Datasets, die sich im Cloud Storage-Bucket gcp-public-data-arco-era5 befinden:

  • Feuchtigkeit auf Modellebene: Die mengenbezogenen Variablen und das Ozonmischungsverhältnis auf Modellebene.
  • Wind auf Modellebene: Divergenz, Eckpunkt, Temperatur und vertikale Geschwindigkeit auf Modellebene.
  • Einstufige Oberfläche: Das Oberflächengeopotenzial und der Logarithmus des Oberflächendrucks an der Oberfläche des Modells.
  • Einstufige Prognose: 21 Variablen, die sich auf die solare/langwellige Strahlung an der Oberfläche, die Niederschlagsmenge und -art sowie die Schneehöhe und den Wassergehalt beziehen.
  • Einstufige Reanalyse: 38 Variablen in Bezug auf Bodenfeuchte/Temperatur, Winde in Oberflächennähe, Temperatur und Feuchtigkeit in Oberflächennähe, Gesamtwasserdampfsäule und Wolkenkondensat, Gesamtwolkenbedeckung und Luftdruck auf Meereshöhe.

Weitere Informationen dazu, welche Variablen in den einzelnen Datensätzen enthalten sind, finden Sie in den Beispiel-Jupyter-Notebooks im GitHub-Repository.

Bereitstellbare Daten

Der analysebereite Google Cloud-Korpus ist ein Zarr aus den Jahren 1959 bis 2022. Die neueste Version der Daten finden Sie im Cloud Storage-Bucket gcp-public-data-arco-era5:

  • 1959–2022, vollständiges Druckniveau: 31 Oberflächen- und Druckpegelvariablen (für alle 37 Druckpegel) mit einer Breiten-/Längengradauflösung von 0,25°/0,25° in Einheiten von 1 Stunde.

Datenzugriff

Das folgende Code-Snippet lädt das analysebereite Dataset und zeigt eine Zusammenfassung des Datasets an:

import xarray
era5 = xarray.open_zarr(
    "gs://gcp-public-data-arco-era5/ar/1959-2022-full_37-1h-0p25deg-chunk-1.zarr-v2",
    chunks={'time': 48},
    consolidated=True,
)
era5

Weitere Beispiele für die Verwendung von ARCO-ERA5-Daten in Python finden Sie in den Beispiel-Jupyter-Notebooks.

Über das Dataset

Dataset-Quelle: ECMWF – generiert mit den Copernicus Climate Change Service (C3S) Climate Data Store-Informationen.

Kategorie: Atmosphärische Wissenschaft, Datenassimilation, Klima, Wolkenoptimierung, Meteorologie, Reanalyse, Wetter, Wissenschaft und Forschung.

Verwendung: Die Nutzung von ERA5-Daten ist kostenlos, weltweit, nicht exklusiv, gebührenfrei und unbefristet. Alle Nutzer von Copernicus-Produkten müssen einen klaren und sichtbaren Hinweis auf das Copernicus-Programm geben. Weder die europäische Kommission noch die ECMWF ist für eine Verwendung der darin enthaltenen Copernicus-Informationen oder -Daten verantwortlich. Vollständige Informationen zur Verwendung finden Sie in der Lizenz zur Verwendung von Copernicus-Produkten.

Aktualisierungshäufigkeit: Das ERA5-Dataset wird derzeit im Programm für öffentliche Google Cloud-Datasets nicht aktualisiert. Das Programm bietet ERA5-Daten zwischen 1940 und Mai 2023.

Format: Rohdateien haben das Format .grib und NetCDF, verarbeitete Dateien haben das Format .zarr.

Cloud Storage-Speicherort: Daten werden im Bucket gcp-public-data-arco-era5 gespeichert, der sich in der us-central1-Region befindet.

Roadmap für Datasets: Entwicklungspläne für diesen Google Cloud-Datensatz sind im ERA5-Repository verfügbar.