Dati ERA5

ERA5 (ARCO, Analysis-Ready, Cloud Optimized) è la quinta generazione del progetto di reanalisi atmosferica del Centro europeo per le previsioni meteorologiche a medio termine (ECMWF), che fornisce stime orarie di un gran numero di variabili climatiche atmosferiche, terrestri e oceaniche. Il Programma per i set di dati pubblici di Google Cloud ospita i dati ERA5 che vanno dal 1940 a maggio 2023, coprono la Terra su una griglia di 30 km e risolvono l'atmosfera utilizzando 137 livelli dalla superficie fino a un'altezza di 80 km.

Una nuova analisi è "il quadro più completo attualmente possibile del clima e del meteo passati". Le rianalisi vengono create dall'assimilazione di una vasta gamma di fonti di dati tramite modelli di previsione meteorologica numerica (NWP). Le variabili di valore meteorologico per terra e atmosfera sono state importate e convertite da dati grib a Zarr (senza altre modifiche) per mostrare una versione ottimizzata per il cloud di ERA5. Inoltre, viene fornita una base di codice open source per mostrare la provenienza dei dati e dimostrare i flussi di lavoro di ricerca comuni. Questo set di dati include sia i file non elaborati (grib) sia quelli ottimizzati per il cloud (zarr).

Casi d'uso

I dati ERA5 possono essere utilizzati in molte applicazioni diverse, tra cui:

  • Addestramento di modelli ML che prevedono l'impatto del meteo su diversi fenomeni
  • Addestramento e valutazione di modelli ML che prevedono il meteo
  • Calcolo delle climatologie, ovvero del clima medio di una regione in un determinato periodo di tempo
  • Visualizzazione e studio di eventi meteorologici storici, come l'uragano Sandy

Grazie alle norme relative ai dati aperti dei Servizi di monitoraggio dell'atmosfera e dei cambiamenti climatici di Copernicus e del Centro europeo per le previsioni meteorologiche a medio termine (ECMWF), questo set di dati è disponibile gratuitamente nell'ambito del Programma per i set di dati pubblici di Google Cloud. Di seguito sono riportate le informazioni sulla licenza.

Struttura del set di dati

Il set di dati ERA5 è archiviato in tre sottodirectory principali: raw/, co/ e ar/. raw/ contiene i dati di origine importati dall'ECMWF. co/ contiene una versione "ottimizzata per il cloud": si tratta di dati convertiti direttamente in un formato ottimizzato per il cloud (Zarr) nella griglia nativa senza ulteriore elaborazione. ar/, o "pronto per l'analisi", contiene un set di dati pronto per l'apprendimento automatico. Questa versione del corpus è in una griglia regolare di latitudine/longitudine e unifica i dati di superficie e atmosferici in un unico Zarr.

Dati ottimizzati per il cloud

Il nostro corpus ottimizzato per il cloud include cinque set di dati Zarr separati, che si trovano nel bucket Cloud Storage gcp-public-data-arco-era5:

  • Umidità a livello di modello: le variabili relative all'umidità e il rapporto di miscelazione dell'ozono a livello di modello.
  • Vento a livello di modello: divergenza, vorticità, temperatura e velocità verticale a livello di modello.
  • Superficie a un livello: il geopotenziale e il logaritmo della pressione superficiale sulla superficie del modello.
  • Previsione a un livello: 21 variabili relative alla radiazione solare/a onde lunghe sulla superficie, alla quantità e al tipo di precipitazioni, alla profondità della neve e al contenuto di acqua.
  • Reanalisi a un livello: 38 variabili relative all'umidità/alla temperatura del suolo, ai venti vicino alla superficie, alla temperatura e all'umidità vicino alla superficie, al vapore acqueo totale della colonna e alla condensazione dei nuvole, alla copertura totale delle nuvole e alla pressione a livello del mare.

Per ulteriori informazioni sulle variabili incluse in ogni set di dati, consulta i notebook Jupyter di esempio nel repository GitHub.

Dati pronti per l'analisi

Il corpus pronto per l'analisi di Google Cloud è un file Zarr che copre gli anni 1959-2022. La versione più recente dei dati è disponibile nel bucket Cloud Storage gcp-public-data-arco-era5:

  • 1959-2022, livelli di pressione completi: 31 variabili di livello di pressione e della superficie (per tutti i 37 livelli di pressione) con una risoluzione di latitudine/longitudine di 0,25°/0,25°, organizzate in blocchi di 1 ora.

Accesso ai dati

Il seguente snippet di codice carica il set di dati pronto per l'analisi e ne mostra un riepilogo:

import xarray
era5 = xarray.open_zarr(
    "gs://gcp-public-data-arco-era5/ar/1959-2022-full_37-1h-0p25deg-chunk-1.zarr-v2",
    chunks={'time': 48},
    consolidated=True,
)
era5

Per altri esempi di utilizzo dei dati ARCO-ERA5 in Python, consulta i blocchi note Jupyter di esempio.

Informazioni sul set di dati

Origine del set di dati: ECMWF - generato utilizzando informazioni del Climate Data Store del servizio Copernicus Climate Change Service (C3S).

Categoria: Scienza dell'atmosfera, Assimilazione dei dati, Clima, Ottimizzato per il cloud, Meteologia, Rianalisi, Meteo, Scienza e ricerca.

Utilizzo: l'utilizzo dei dati ERA5 è gratuito, mondiale, non esclusivo, esente da royalty e perpetuo. Tutti gli utenti dei prodotti Copernicus devono fornire un'attribuzione chiara e visibile al programma Copernicus. Né la Commissione europea né l'ECMWF sono responsabili di qualsiasi utilizzo che possa essere fatto delle informazioni o dei dati di Copernicus inclusi. Per informazioni dettagliate sull'utilizzo, consulta la Licenza per l'utilizzo dei prodotti Copernicus.

Frequenza di aggiornamento: al momento il set di dati ERA5 non viene aggiornato nel programma per i set di dati pubblici di Google Cloud. Il programma fornisce dati ERA5 dal 1940 a maggio 2023.

Formato: i file non elaborati sono in formato .grib e NetCDF, mentre i file elaborati sono in formato .zarr.

Posizione Cloud Storage: i dati vengono archiviati nel bucket gcp-public-data-arco-era5, che si trova nella regione us-central1.

Roadmap del set di dati: i piani di sviluppo di questo set di dati di Google Cloud sono disponibili nel repository ERA5.