Analysis-Ready, Cloud Optimized(ARCO) ERA5는 5세대 European Center for Medium-Range Weather Forecasts(ECMWF) 대기 재분석으로 수많은 대기, 토양, 해양 기후 변수에 대한 시간당 추정치를 제공합니다. Google Cloud 공개 데이터 세트 프로그램은 1940년부터 2023년 5월까지의 ERA5 데이터를 호스팅하며 30km 그리드에서 지구를 나타내고 지표면에서 80km 높이까지 137개 레벨을 사용하여 대기를 나타냅니다.
재분석은 '과거 날씨와 기후에 대해 현재 가능한 가장 완벽한 그림'입니다. 재분석은 숫자 기상 예측(NWP) 모델을 통해 다양한 데이터 소스를 융합하는 것으로 생성됩니다. 클라우드에 최적화된 ERA5 버전을 제공하기 위해 토양과 대기에 대한 기상적으로 중요한 변수를 수집하여 grib 데이터에서 Zarr로 변환(다른 수정 없이)했습니다. 또한 데이터 출처를 표시하고 일반적인 조사 워크플로를 보여주기 위해 오픈소스 코드 베이스가 제공됩니다. 이 데이터 세트에는 원시(grib) 파일과 클라우드 최적화(zarr) 파일이 모두 포함됩니다.
사용 사례
ERA5 데이터는 다음과 같은 여러 애플리케이션에서 사용될 수 있습니다.
- 날씨가 다양한 현상에 미치는 영향을 예측하는 ML 모델 학습
- 날씨를 예측하는 ML 모델 학습 및 평가
- 일정 기간 동안 한 지역의 평균 날씨, 기후론 계산
- 허리케인 샌디와 같은 과거 기상 악화 시각화 및 연구
코페르니쿠스 기후 변화 및 대기 모니터링 서비스와 ECMWF의 개방형 데이터 정책 덕분에 이 데이터 세트는 Google Cloud 공공 데이터 세트 프로그램의 일부로 무료 제공됩니다. 라이선스 정보는 아래를 참조하세요.
데이터 세트 구조
ERA5 데이터 세트는 세 개의 핵심 하위 디렉터리인 raw/
, co/
, ar/
에 저장됩니다. raw/
에는 ECMWF에서 수집된 소스 데이터가 포함됩니다. co/
에는 '클라우드 최적화' 버전이 포함되어 있습니다. 이는 추가 처리 없이 네이티브 그리드에서 클라우드 최적화 형식(Zarr)으로 직접 변환된 데이터입니다. ar/
또는 'analysis-ready'에는 ML용 데이터 세트가 포함됩니다. 이 코퍼스 버전은 일반 위도/경도 그리드에 있으며 지표면 및 대기 데이터를 단일 Zarr로 통합합니다.
클라우드 최적화 데이터
클라우드 최적화 코퍼스에는 Cloud Storage 버킷 gcp-public-data-arco-era5
에 있는 5개의 개별 Zarr 데이터 세트가 포함되어 있습니다.
- 모델 수준 수분: 모델 수준에서 수분 관련 변수와 오존 혼합 비율입니다.
- 모델 수준 바람: 모델 수준에서 발산, 소용돌이, 온도, 수직 속도입니다.
- 단일 수준 표면: 모델의 표면에서 지상 압력의 표면 지오퍼텐셜 및 대수입니다.
- 단일 수준 예측: 표면의 태양/장파 복사, 강수량 및 유형, 강설량 깊이 및 수위 콘텐츠와 관련된 변수 21개입니다.
- 단일 수준 재분석: 토양 수분/온도, 표면 근처 바람, 표면 근처 온도 및 습도, 총 기둥 수증기 및 구름 규모, 총 운량, 해면 기압과 관련된 38개 변수입니다.
각 데이터 세트에 포함된 변수에 대한 자세한 내용은 GitHub 저장소에서 Jupyter 노트북 예시를 참조하세요.
분석에 즉시 사용 가능한 데이터
Google Cloud 분석에 사용할 수 있는 코퍼스는 1959년~2022년의 Zarr입니다.
최신 버전의 데이터는 Cloud Storage 버킷 gcp-public-data-arco-era5
에서 찾을 수 있습니다.
- 1959년~2022년, 전압력 수준: 0.25°/0.25° 위도/경도 해상도의 31개 지표면과 (37개의 모든 기압면 고도에 대한) 기압면 고도 변수가 1시간 단위로 정리되어 있습니다.
데이터 액세스
다음 코드 스니펫은 바로 분석할 수 있는 데이터 세트를 로드하고 데이터 세트 요약을 표시합니다.
import xarray era5 = xarray.open_zarr( "gs://gcp-public-data-arco-era5/ar/1959-2022-full_37-1h-0p25deg-chunk-1.zarr-v2", chunks={'time': 48}, consolidated=True, ) era5
Python에서 ARCO-ERA5 데이터를 사용하는 예시를 더 보려면 Jupyter 노트북 예시를 참조하세요.
데이터세트 정보
데이터 세트 소스: ECMWF - 코페르니쿠스 기후 변화 서비스(C3S) 기후 데이터 스토어 정보를 사용하여 생성됩니다.
카테고리: 대기 과학, 데이터 시뮬레이션, 기후, 클라우드 최적화, 기상학, 재분석, 날씨, 과학 및 연구
사용: ERA5 데이터는 전 세계에서 무료로 사용 가능하며 비독점적이고 로열티가 없으며 영구적입니다. 모든 코페르니쿠스 제품 사용자는 코페르니쿠스 프로그램에 명확하고 눈에 띄는 저작자 표시를 제공해야 합니다. 유럽 위원회나 ECMWF는 코페르니쿠스 정보 또는 여기에 포함된 데이터로 이루어진 모든 사용에 대해 어떠한 책임도 지지 않습니다. 사용에 대한 자세한 내용은 코페르니쿠스 제품 사용 라이선스를 참조하세요.
업데이트 빈도: ERA5 데이터 세트는 현재 Google Cloud 공개 데이터 세트 프로그램에서 업데이트되지 않습니다. 이 프로그램은 1940년부터 2023년 5월까지의 ERA5 데이터를 제공합니다.
형식: 원시 파일은 .grib
및 NetCDF 형식이며 처리된 파일은 .zarr
형식입니다.
Cloud Storage 위치: 데이터는 us-central1
리전에 있는 gcp-public-data-arco-era5
버킷에 저장됩니다.
데이터 세트 로드맵: 이 Google Cloud 데이터 세트의 개발 계획은 ERA5 저장소에서 확인할 수 있습니다.