Analysis-Ready, Cloud Optimized (ARCO) ERA5 是 European Centre for Medium-Range Weather Forecasts (ECMWF) Atmospheric Reanalysis 的第五代,提供大量大气、陆地和海洋气候变量的每小时估计值。Google Cloud 公共数据集计划托管从 1940 年至 2023 年 5 月的 ERA5 数据,以 30 公里的网格覆盖地球,并使用从地表向上 80 公里高度的总计 137 个层次来解析大气。
重新分析是“目前可能对过去天气和气候的较完整分析”。重新分析是通过数值天气预测 (NWP) 模型对广泛的数据源进行同化而创建的。系统会注入具有气象学价值的陆地和大气变量,并将其从 grib 数据转换为 Zarr(没有其他修改),以显示 ERA5 的云优化版本。 此外,系统还提供了一个开源代码库,用于展示数据的来源并演示常见的研究工作流。此数据集包括原始 (grib) 和云优化 (zarr) 文件。
使用场景
ERA5 数据可用于许多不同的应用,包括:
- 训练机器学习模型,来预测天气对不同现象的影响
- 训练和评估用于预测天气的机器学习模型
- 计算气候(给定时间段内某个区域的平均天气)
- 直观呈现和研究历史天气事件,例如飓风桑迪
由于 Copernicus Climate Change and Atmosphere Monitoring Services 和 ECMWF 的开放数据政策,该数据集已被包含到 Google Cloud 公共数据集计划中,可供用户免费使用。请参阅下文,了解许可信息。
数据集结构
ERA5 数据集存储在三个核心子目录中:raw/
、co/
和 ar/
。raw/
包含从 ECMWF 中注入的源数据。co/
包含“云优化”版本:这些是在其原生网格中直接转换为云优化格式 (Zarr) 的数据,无需进一步处理。ar/
(也称为“可供分析”)包含可供机器学习使用的数据集。此版本的语料库采用常规经纬网格,并将地表和大气数据整合到单个 Zarr 中。
云优化数据
我们的云优化语料库包含五个单独的 Zarr 数据集,这些数据集位于 Cloud Storage 存储桶 gcp-public-data-arco-era5
中:
- 模型级湿度:模型级的湿度相关变量和臭氧混合比。
- 模型级气流:模型级的散度、涡度、温度和垂直速度。
- 单级表面:模型表面处的地表位势和地表压力的对数。
- 单级预测:与地表太阳/长波辐射、降水量和类型、降雪深度和含水量有关的 21 个变量。
- 单级重新分析:与土壤湿度/温度、地表附近的气流、地表附近的温度和湿度、总柱状水汽和云冷凝物、总云量和海平面压力有关的 38 个变量。
如需详细了解每个数据集中包含的变量,请参阅 GitHub 代码库中的示例 Jupyter 笔记本。
随时可供分析的数据
Google Cloud 可供分析的语料库是一个涵盖 1959-2022 年的 Zarr。您可以在 Cloud Storage 存储桶 gcp-public-data-arco-era5
中找到最新版本的数据:
- 1959-2022 年,全压力级别:31 个表面和压力级别变量(对于全部 37 个压力级别),采用 0.25°/0.25° 纬度/经度分辨率,按 1 小时数据块整理。
数据访问
以下代码段会加载可供分析的数据集并显示数据集摘要:
import xarray era5 = xarray.open_zarr( "gs://gcp-public-data-arco-era5/ar/1959-2022-full_37-1h-0p25deg-chunk-1.zarr-v2", chunks={'time': 48}, consolidated=True, ) era5
如需查看在 Python 中使用 ARCO-ERA5 数据的更多示例,请参阅示例 Jupyter 笔记本。
关于数据集
数据集来源:ECMWF - 使用 Copernicus Climate Change Service (C3S) 气候数据存储区信息生成。
类别:大气科学、数据模拟、气候、云优化、气象学、重新分析、天气、科学和研究。
使用:ERA5 数据的使用是免费的、全球性的、非排他性的、免版税的、永久的。Copernicus 产品的所有用户都必须提供 Copernicus 计划清晰可见的归因。欧洲委员会和 ECMWF 均不对 Copernicus 信息或其中包含的数据的任何使用负责。如需了解完整的使用详情,请参阅 Copernicus 产品使用许可。
更新频率:ERA5 数据集目前在 Google Cloud 公共数据集计划中不会刷新。该计划提供 1940 年至 2023 年 5 月的 ERA5 数据。
格式:原始文件采用 .grib
和 NetCDF 格式,已处理的文件采用 .zarr
格式。
Cloud Storage 位置:数据存储在存储桶 gcp-public-data-arco-era5
(位于 us-central1
区域)中。
数据集路线图:此 Google Cloud 数据集的开发计划可在 ERA5 仓库中找到。