ERA5 数据

Analysis-Ready, Cloud Optimized (ARCO) ERA5 是 European Centre for Medium-Range Weather Forecasts (ECMWF) Atmospheric Reanalysis 的第五代,提供大量大气、陆地和海洋气候变量的每小时估计值。Google Cloud 公共数据集计划托管从 1940 年至 2023 年 5 月的 ERA5 数据,以 30 公里的网格覆盖地球,并使用从地表向上 80 公里高度的总计 137 个层次来解析大气。

重新分析是“目前可能对过去天气和气候的较完整分析”。重新分析是通过数值天气预测 (NWP) 模型对广泛的数据源进行同化而创建的。系统会注入具有气象学价值的陆地和大气变量,并将其从 grib 数据转换为 Zarr(没有其他修改),以显示 ERA5 的云优化版本。 此外,系统还提供了一个开源代码库,用于展示数据的来源并演示常见的研究工作流。此数据集包括原始 (grib) 和云优化 (zarr) 文件。

使用场景

ERA5 数据可用于许多不同的应用,包括:

  • 训练机器学习模型以预测天气对不同现象的影响
  • 训练和评估用于预测天气的机器学习模型
  • 计算气候(给定时间段内某个区域的平均天气)
  • 直观呈现和研究历史天气事件,例如飓风桑迪

由于 Copernicus Climate Change and Atmosphere Monitoring Services 和 ECMWF 的开放数据政策,该数据集已被包含到 Google Cloud 公共数据集计划中,可供用户免费使用。请参阅下文,了解许可信息。

数据集结构

ERA5 数据集存储在三个核心子目录中:raw/co/ar/raw/ 包含从 ECMWF 中注入的源数据。co/ 包含“云优化”版本:这些数据是在其原生网格中直接转换为云优化格式 (Zarr) 的数据,无需进一步处理。ar/(也称为“可供分析”)包含可供机器学习使用的数据集。此版本的语料库位于常规纬度/经度网格中,并将表面和大气数据统一到一个 Zarr 中。

云优化数据

我们的云优化语料库包含五个单独的 Zarr 数据集,这些数据集位于 Cloud Storage 存储桶 gcp-public-data-arco-era5 中:

  • 模型级湿度:模型级的湿度相关变量和臭氧混合比。
  • 模型级气流:模型级的散度、涡度、温度和垂直速度。
  • 单级表面:模型表面处的地表位势和地表压力的对数。
  • 单级预测:与地表太阳/长波辐射、降水量和类型、降雪深度和含水量有关的 21 个变量。
  • 单级重新分析:与土壤湿度/温度、地表附近的气流、地表附近的温度和湿度、总柱状水汽和云冷凝物、总云量和海平面压力有关的 38 个变量。

如需详细了解每个数据集中包含的变量,请参阅 GitHub 代码库中的示例 Jupyter 笔记本

可供分析的数据

Google Cloud 可供分析的语料库是一个涵盖 1959-2022 年的 Zarr。您可以在 Cloud Storage 存储桶 gcp-public-data-arco-era5 中找到最新版本的数据:

  • 1959-2022 年,全压力级别:31 个表面和压力级别变量(对于全部 37 个压力级别),采用 0.25°/0.25° 纬度/经度分辨率,按 1 小时数据块整理。

数据访问

以下代码段会加载可供分析的数据集并显示数据集摘要:

import xarray
era5 = xarray.open_zarr(
    "gs://gcp-public-data-arco-era5/ar/1959-2022-full_37-1h-0p25deg-chunk-1.zarr-v2",
    chunks={'time': 48},
    consolidated=True,
)
era5

如需查看在 Python 中使用 ARCO-ERA5 数据的更多示例,请参阅示例 Jupyter 笔记本

关于数据集

数据集来源ECMWF - 使用 Copernicus Climate Change Service (C3S) 气候数据存储区信息生成。

类别:大气科学、数据模拟、气候、云优化、气象学、重新分析、天气、科学和研究。

使用:ERA5 数据的使用是免费的、全球性的、非排他性的、免版税的、永久的。Copernicus 产品的所有用户都必须提供 Copernicus 计划清晰可见的归因。欧洲委员会和 ECMWF 均不对 Copernicus 信息或其中包含的数据的任何使用负责。如需了解完整的使用详情,请参阅 Copernicus 产品使用许可

更新频率:ERA5 数据集目前在 Google Cloud 公共数据集计划中不会刷新。该计划提供 1940 年至 2023 年 5 月的 ERA5 数据。

格式:原始文件采用 .grib 和 NetCDF 格式,已处理的文件采用 .zarr 格式。

Cloud Storage 位置:数据存储在存储桶 gcp-public-data-arco-era5(位于 us-central1 区域)中。

数据集路线图:此 Google Cloud 数据集的开发计划可在 ERA5 仓库中找到。