ERA5 数据

Analysis-Ready, Cloud Optimized (ARCO) ERA5 是 European Centre for Medium-Range Weather Forecasts (ECMWF) Atmospheric Reanalysis 的第五代，提供大量大气、陆地和海洋气候变量的每小时估计值。 Google Cloud 公共数据集计划托管从 1940 年至 2023 年 5 月的 ERA5 数据，以 30 公里的网格覆盖地球，并使用从地表向上 80 公里高度的总计 137 个层次来解析大气。

重新分析是“目前可能对过去天气和气候的较完整分析”。重新分析是通过数值天气预测 (NWP) 模型对广泛的数据源进行同化而创建的。系统会注入具有气象学价值的陆地和大气变量，并将其从 grib 数据转换为 Zarr（没有其他修改），以显示 ERA5 的云优化版本。此外，系统还提供了一个开源代码库，用于展示数据的来源并演示常见的研究工作流。此数据集包括原始 (grib) 和云优化 (zarr) 文件。

使用场景

ERA5 数据可用于许多不同的应用，包括：

训练机器学习模型，来预测天气对不同现象的影响
训练和评估用于预测天气的 ML 模型
计算气候（给定时间段内某个区域的平均天气）
直观呈现和研究历史天气事件，例如飓风桑迪

由于 Copernicus Climate Change and Atmosphere Monitoring Services 和 ECMWF 的开放数据政策，该数据集已被包含到Google Cloud 公共数据集计划中，可供用户免费使用。请参阅下文，了解许可信息。

数据集结构

ERA5 数据集存储在三个核心子目录中：raw/、co/ 和 ar/。raw/ 包含从 ECMWF 中注入的源数据。co/ 包含“云优化”版本：这些是在其原生网格中直接转换为云优化格式 (Zarr) 的数据，无需进一步处理。ar/（也称为“可供分析”）包含可供机器学习使用的数据集。此版本的语料库采用常规纬度/经度网格，并将地表和大气数据统一到一个 Zarr 中。

云优化数据

我们的云优化语料库包含五个单独的 Zarr 数据集，这些数据集位于 Cloud Storage 存储桶 gcp-public-data-arco-era5 中：

模型级湿度：模型级的湿度相关变量和臭氧混合比。
模型级气流：模型级的散度、涡度、温度和垂直速度。
单级表面：模型表面处的地表位势和地表压力的对数。
单级预测：与地表太阳/长波辐射、降水量和类型、降雪深度和含水量有关的 21 个变量。
单级重新分析：与土壤湿度/温度、地表附近的气流、地表附近的温度和湿度、总柱状水汽和云冷凝物、总云量和海平面压力有关的 38 个变量。

如需详细了解每个数据集中包含的变量，请参阅 GitHub 代码库中的示例 Jupyter 笔记本。

随时可供分析的数据

Google Cloud 可供分析的语料库是一个涵盖 1959-2022 年的 Zarr。您可以在 Cloud Storage 存储桶 gcp-public-data-arco-era5 中找到最新版本的数据：

1959-2022 年，全压力级别：31 个表面和压力级别变量（对于全部 37 个压力级别），采用 0.25°/0.25° 纬度/经度分辨率，按 1 小时数据块整理。

数据访问

以下代码段会加载可供分析的数据集并显示数据集摘要：

import xarray
era5 = xarray.open_zarr(
    "gs://gcp-public-data-arco-era5/ar/1959-2022-full_37-1h-0p25deg-chunk-1.zarr-v2",
    chunks={'time': 48},
    consolidated=True,
)
era5

如需查看在 Python 中使用 ARCO-ERA5 数据的更多示例，请参阅示例 Jupyter 笔记本。

关于数据集

数据集来源：ECMWF - 使用 Copernicus Climate Change Service (C3S) 气候数据存储区信息生成。

类别：大气科学、数据模拟、气候、云优化、气象学、重新分析、天气、科学和研究。

使用：ERA5 数据的使用是免费的、全球性的、非排他性的、免版税的、永久的。Copernicus 产品的所有用户都必须提供 Copernicus 计划清晰可见的归因。欧洲委员会和 ECMWF 均不对 Copernicus 信息或其中包含的数据的任何使用负责。如需了解完整的使用详情，请参阅 Copernicus 产品使用许可。

更新频率：ERA5 数据集目前在Google Cloud 公共数据集计划中不会刷新。该计划提供 1940 年至 2023 年 5 月的 ERA5 数据。

格式：原始文件采用 .grib 和 NetCDF 格式，已处理的文件采用 .zarr 格式。

Cloud Storage 位置：数据存储在存储桶 gcp-public-data-arco-era5（位于 us-central1 区域）中。

数据集路线图：此 Google Cloud 数据集的开发计划可在 ERA5 仓库中找到。

ERA5 数据 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。