Dados ERA5

O ERA5 pronto para análise, otimizado para a nuvem (ARCO, na sigla em inglês) é a quinta geração do Centro Europeu para Previsões meteorológicas de Médio Alcance (ECMWF, na sigla em inglês), reanálise atmosférica, que fornece estimativas por hora de um grande número das variáveis climáticas atmosféricas, terrestres e oceânicas. O Programa de conjunto de dados públicos do Google Cloud hospeda dados ERA5 que vão de 1940 a maio de 2023, cobrindo a Terra em uma grade de 30 km e resolve a atmosfera usando 137 níveis da superfície até uma altura de 80 km.

Uma nova análise é a "imagem mais completa possível do tempo e do clima no passado". As reanálises são criadas a partir da assimilação de uma ampla variedade de fontes de dados por modelos numéricos de previsão do tempo (NWP, na sigla em inglês). Variáveis metodologicamente valiosas de terra e atmosfera foram ingeridas e convertidas de dados de grib para Zarr (sem outras modificações) para exibir uma versão otimizada para nuvem do ERA5. Além disso, uma base de código aberto é fornecida para mostrar o fornecimento de dados e demonstrar fluxos de trabalho de pesquisa comuns. Esse conjunto de dados inclui arquivos brutos (grib) e otimizados para a nuvem (zarr).

Casos de uso

Os dados ERA5 podem ser usados em diversas aplicações, incluindo:

  • Treinamento de modelos de ML que preveem o impacto do clima em diferentes fenômenos
  • Como treinar e avaliar modelos de ML que preveem o clima
  • Climatologias de computação, o clima médio de uma região em um determinado período
  • Visualizar e estudar eventos climáticos históricos, como o furacão Sandy

Graças à política de dados abertos dos Serviços de Monitoramento de Clima e Mudanças Climáticas e do ECMWF da Copernicus, este conjunto de dados está disponível gratuitamente como parte do Programa de Conjunto de dados público do Google Cloud. Veja abaixo as informações sobre licenças.

Estrutura do conjunto de dados

O conjunto de dados ERA5 é armazenado em três subdiretórios principais: raw/, co/ e ar/. raw/ contém dados de origem ingeridos do ECMWF. co/ contém uma versão "otimizada para nuvem": esses são dados convertidos diretamente em um formato otimizado para nuvem (Zarr) na grade nativa sem processamento adicional. de dois minutos. ar/, ou "pronto para análise", contém um conjunto de dados pronto para ML. Essa versão do corpus está em uma grade regular de latitude/longitude e unifica os dados de superfície e atmosféricos em um único Zarr.

Dados otimizados para a nuvem

Nosso corpus otimizado para nuvem inclui cinco conjuntos de dados Zarr separados, encontrados no bucket do Cloud Storage gcp-public-data-arco-era5:

  • Umidade no nível do modelo: as variáveis relacionadas à umidade e a proporção de mistura de ozônio nos níveis do modelo.
  • Vento no nível do modelo: divergência, vorticidade, temperatura e velocidade vertical nos níveis do modelo.
  • Superfície de nível único: a superfície e o logaritmo de pressão de superfície da superfície do modelo.
  • Previsão de nível único: 21 variáveis relacionadas à radiação solar/de onda longa na superfície, quantidade e tipo de precipitação, profundidade de neve e conteúdo de água.
  • Reanálise de nível único: 38 variáveis relacionadas à umidade/temperatura do solo, à temperatura e à umidade perto da superfície, ao vapor total de água da coluna e ao condensado, à cobertura total da nuvem e à pressão no mar.

Para saber mais sobre quais variáveis estão incluídas em cada conjunto de dados, consulte os exemplos de notebooks do Jupyter no repositório do GitHub.

Dados prontos para análise

O corpus pronto para análise do Google Cloud é um Zarr abrangendo os anos de 1959 a 2022. A versão mais recente dos dados pode ser encontrada no bucket do Cloud Storage gcp-public-data-arco-era5:

  • 1959-2022, níveis de pressão total: 31 variáveis de nível de superfície e pressão (para todos os 37 níveis de pressão) com uma resolução de latitude/longitude de 0,25°/0,25°, organizadas em 1 hora. pedaços.

Acesso a dados

O snippet de código a seguir carrega o conjunto de dados pronto para análise e exibe um resumo do conjunto de dados:

import xarray
era5 = xarray.open_zarr(
    "gs://gcp-public-data-arco-era5/ar/1959-2022-full_37-1h-0p25deg-chunk-1.zarr-v2",
    chunks={'time': 48},
    consolidated=True,
)
era5

Para mais exemplos usando dados ARCO-ERA5 em Python, consulte os exemplos de notebooks do Jupyter.

Sobre o conjunto de dados

Origem do conjunto de dados: ECMWF - Gerado usando as informações do Climate Change Service (C3S) do Copernicus Climate Change Service.

Categoria: ciência atmosférica, assimilação de dados, clima, otimizado para nuvem, meteorologia, reanálise, clima, ciência e pesquisa.

Uso: o uso de dados ERA5 é gratuito, global, não exclusivo, livre de royalties e perpétuo. Todos os usuários dos produtos da Copernicus precisam fornecer uma atribuição clara e visível ao programa. Nem a Comissão Europeia nem o ECMWF são responsáveis por qualquer uso que possa ser feito das informações ou dados do Concinicus contidos nele. Para mais detalhes, consulte a Licença para usar produtos Copernicus.

Frequência de atualização: o conjunto de dados ERA5 não é atualizado no programa de conjuntos de dados públicos do Google Cloud. O programa fornece dados do ERA5 de 1940 a maio de 2023.

Formato: os arquivos brutos estão no formato .grib e NetCDF, e os processados estão em .zarr.

Local do Cloud Storage: os dados são armazenados no bucket gcp-public-data-arco-era5, localizado na região us-central1.

Roteiro do conjunto de dados: os planos de desenvolvimento para esse conjunto de dados do Google Cloud estão disponíveis no repositório do ERA5.