Données ERA5

L'ensemble de données prêt pour l'analyse et optimisé pour le cloud (ARCO, Analysis-Ready, Cloud Optimized) ERA5 est la cinquième génération de réanalyse atmosphérique du Centre européen pour les prévisions météorologiques à moyen terme (CEPMMT). Il fournit des estimations horaires pour un grand nombre de variables climatiques sur l'atmosphère, les sols et l'océan. Le programme d'ensembles de données publics de Google Cloud héberge des données ERA5 allant de 1940 à mai 2023, couvrant la Terre entière selon une grille d'un maillage de 30 km, et qui résolvent l'atmosphère en utilisant 137 niveaux depuis la surface de la Terre jusqu'à une altitude de 80 km.

Une réanalyse est la "représentation la plus complète actuellement possible des conditions météorologiques et climatiques passées". Les réanalyses sont créées en assimilant un large éventail de sources de données à l'aide de modèles de prévision numérique du temps (PNT). Les variables météorologiques importantes sur les sols et l'atmosphère ont été ingérées et converties du format de données grib en Zarr (sans aucune autre modification) afin d'afficher une version de ERA5 optimisée pour le cloud. En outre, un code base Open Source est fourni pour indiquer la provenance des données et montrer les workflows de recherche courants. Cet ensemble de données inclut à la fois des fichiers bruts (grib) et optimisés pour le cloud (zarr).

Cas d'utilisation

Les données ERA5 peuvent être exploitées dans de nombreuses applications, y compris les suivantes :

  • Entraîner des modèles de ML qui prédisent l'impact de la météo sur différents phénomènes
  • Entraîner et évaluer des modèles de ML qui prédisent la météo
  • Effectuer des calculs de climatologie (données météorologiques moyennes d'une région sur une période donnée)
  • Visualiser et étudier des événements météorologiques historiques, tels que l'ouragan Sandy

Grâce aux politiques d'accès libre aux données des Services Copernicus de surveillance du changement climatique et de l'atmosphère et du CEPMMT, cet ensemble de données est disponible gratuitement dans le cadre du programme d'ensembles de données publics de Google Cloud. Pour en savoir plus sur les licences, consultez les informations ci-dessous.

Structure de l'ensemble de données

L'ensemble de données ERA5 est stocké dans trois sous-répertoires principaux: raw/, co/ et ar/. raw/ contient des données sources ingérées à partir d'ECMWF. co/ contient une version "optimisée pour le cloud" : il s'agit de données converties directement dans un format optimisé pour le cloud (Zarr) dans sa grille native, sans traitement supplémentaire. ar/, ou "prêt pour l'analyse", contient un ensemble de données prêt pour le ML. Cette version du corpus se trouve dans une grille de latitude/longitude standard et unifie les données atmosphériques et de surface en un seul Zarr.

Données optimisées pour le cloud

Notre corpus optimisé pour le cloud comprend cinq ensembles de données Zarr distincts, disponibles dans le bucket Cloud Storage gcp-public-data-arco-era5:

  • Humidité au niveau du modèle : variables liées à l'humidité et au rapport de mélange de l'ozone aux niveaux du modèle.
  • Vent au niveau du modèle : divergence, vorticité, température et vitesse verticale aux niveaux du modèle.
  • Surface à un seul niveau : géopotentiel de la surface et logarithme de la pression atmosphérique à la surface du modèle.
  • Prévision à un seul niveau : 21 variables liées à la radiation solaire et au rayonnement de grande longueur d'onde à la surface, à la quantité et au type de précipitations, ainsi qu'à l'épaisseur des chutes de neige et à la quantité d'eau.
  • Réanalyse à un seul niveau : 38 variables liées à l'humidité et à la température du sol, au vent à proximité de la surface, à la température et à l'humidité à proximité de la surface, à la condensation totale de la vapeur d'eau et au noyau de condensation, à la couverture totale des nuages et à la pression au niveau de la mer.

Pour en savoir plus sur les variables incluses dans chaque ensemble de données, consultez les exemples de notebooks Jupyter dans le dépôt GitHub.

Données prêtes pour l'analyse

Le corpus prêt pour l'analyse de Google Cloud est un Zarr couvrant les années 1959-2022. La dernière version des données se trouve dans le bucket Cloud Storage gcp-public-data-arco-era5:

  • 1959-2022, niveaux de pression complets: 31 variables de niveau de surface et de pression (pour les 37 niveaux de pression) avec une résolution de latitude/longitude de 0,25°/0,25°, organisées en fragments d'une heure.

Accès aux données

L'extrait de code suivant charge l'ensemble de données prêt pour l'analyse et affiche un résumé de l'ensemble de données:

import xarray
era5 = xarray.open_zarr(
    "gs://gcp-public-data-arco-era5/ar/1959-2022-full_37-1h-0p25deg-chunk-1.zarr-v2",
    chunks={'time': 48},
    consolidated=True,
)
era5

Pour obtenir plus d'exemples d'utilisation des données ARCO-ERA5 dans Python, consultez les exemples de notebooks Jupyter.

À propos de l'ensemble de données

Source de l'ensemble de données : CEPMMT. Généré à l'aide des informations du datastore de données climatiques du Service Copernicus de surveillance du changement climatique (C3S).

Catégorie : science de l'atmosphère, assimilation de données, climat, optimisation pour le cloud, météorologie, réanalyse, météo, science et recherche

Utilisation : l'utilisation des données ERA5 est sans frais, mondiale, non exclusive, libre de droits et permanente. Tous les utilisateurs des produits Copernicus doivent fournir une attribution claire et visible au programme Copernicus. Ni la Commission européenne, ni le CEPMMT ne sont responsables de l'utilisation possible des informations ou des données de Copernicus. Pour en savoir plus sur leur utilisation, consultez la page Licence permettant d'utiliser les produits Copernicus.

Fréquence de mise à jour : l'ensemble de données ERA5 n'est actuellement pas actualisé dans le programme d'ensembles de données publics de Google Cloud. Le programme fournit des données ERA5 de 1940 à mai 2023.

Format: les fichiers bruts sont au format .grib et au format NetCDF, et les fichiers traités au format .zarr.

Emplacement Cloud Storage : les données sont stockées dans le bucket gcp-public-data-arco-era5 qui se trouve dans la région us-central1.

Feuille de route de l'ensemble de données: les plans de développement de cet ensemble de données Google Cloud sont disponibles dans le dépôt ERA5.