データ分析

最新の気候モデル データを Google Cloud 一般公開データセットに追加

astronomy-atmosphere-earth-220201.jpg

※この投稿は米国時間 2019 年 12 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

一般公開データセットの探索は現代のデータ アナリティクスの重要な一部であり、収集されたデータは私たちの世界を理解するうえで役に立ちます。Google Cloud では以前から一般公開データセットのコレクションを揃えており、今回新たにコロンビア大学のラモント ドハティ地球観測所(LDEO)および Pangeo Project と協力して、最新の気候シミュレーション データをクラウドでホストできることをうれしく思います。

世界気候研究計画(WCRP)は最近、第 6 期結合モデル相互比較プロジェクト(CMIP6)データ アーカイブのリリースを開始しました。これには、気候変動に伴う緊急の環境問題を調査している約 30 のワーキング グループと 1,000 人の研究者が作成した気候モデルが集約されています。

CMIP6 気候モデル データセットは、履歴データや将来のシミュレーション データに加えて、気候システムのさまざまな側面に関するリッチな詳細データを含んでいます。現在、CMIP6 データセットには Cloud Storage からアクセスできますが、近いうちに BigQuery からもアクセスが可能になります。Pangeo Project は、CMIP6 データを Google Cloud で利用できるようにするとともに、クラウド コンピューティングによる気候データの分析および可視化を容易にするソフトウェアとインフラストラクチャを開発しています。

Google Cloud では、このデータセットを継続的に更新して、世界中の研究者がそれぞれのプロジェクトで利用できるようにしていきます。TB や PB クラスのデータでも、そのダウンロードに制約は設けません。アーカイブは最終的に 20 PB のデータを集める予定ですが、現在はそのうちの 100 TB のデータがクラウドからアクセスできます。Pangeo の CMIP6 Google Cloud Collection データを入手するには、こちらのフォームからお申込みください。

コロンビア大学と LDEO で地球環境科学を研究する Ryan Abernathey 准教授は、「(CMIP6 は)非常にライブなデータセットです。今後 1 年にわたって、オンラインでデータが届いたりニーズが生まれたりするたびに更新されていきます」と述べるとともに、このプロジェクトの実用的な意味も強調しています。「人々が最も心配しているのはグローバルな平均気温ではありません。“グローバルな平均世界” で暮らしている人などいないからです。人々は、社会に深刻な被害をもたらす干ばつや異常降雨のローカルな影響に関心を持っています。そうした稀な事象を精密にシミュレートすると、予想される気候の変化に対応する計画を立てるうえで有用な情報が得られます。」

CMIP6 データの内容

CMIP6 データのモデルは、1850 年以降の履歴データに基づく精密なシミュレーションから、主要な変数を操作できる仮説的なシナリオまで多岐にわたります。たとえば、Abernathey 氏は次のように問いかけます。「二酸化炭素(CO2)の濃度が一夜にして 4 倍に上がったらどうなるでしょうか。これは非常に役に立つ実験です。将来の詳細な予測に役立つというのではなく、気候システムが CO2 にどのように反応するかの物理的理解を探るうえで役に立つからです。」

CMIP6 の各モデルには多数の変数、アンサンブル メンバ、シナリオが含まれており、大規模で扱いにくいデータセットになっています。しかし、ビッグデータ分析用のオープンソース Python ツール群である Pangeo を使用すれば、CMIP6 などの巨大なデータセットを使った大規模な計算を簡単に実行できます。

気候研究用の多次元データセットを活用できるよう研究者を支援するべく、Abernathey 氏と LDEO やアメリカ大気研究センター(NCAR)に所属する彼の同僚らは、アメリカ国立科学財団(NSF)からの資金援助と Google Cloud によるコンピューティング分野での支援を受け、Pangeo を開発しました。Pangeo は、地球科学データ分析の促進を目的としたオープンソースのプラットフォームです。

Pangeo は、ほぼすべてのハイパフォーマンス コンピューティング システムで実行できます。たとえば、デプロイが容易で双方向(アップとダウン)の自動スケーリングをサポートし、Cloud Storage や BigQuery などの Google Cloud ツールと連携する Google Kubernetes Engine(GKE)でも Pangeo の実行が可能です。Pangeo コミュニティは、さまざまなドメイン固有アプリケーションのユース ケースといった専門知識を共有し、Zarr(クラウドに最適化されたデータ ストレージ形式)などのオープンソース ツールの開発に貢献しています。

「CMIP プロジェクトは初期の頃から成長を続け、現在ではアメリカや EU を越えて開発途上国でも大きく発展しています」と、計算気候科学者の V. Balaji 氏は同プロジェクトについて語っています。同氏は現在プリンストン大学を一時的に離れ、パリのピエール=シモン ラプラス研究所で仕事をしていますが、実験の定義やシミュレーションの実行から、出力の分析、ESGF(Earth System Grid Federation)の設計に至るまで、CMIP のあらゆる側面に関わってきました。ESGF とは、このような重要な研究事業を可能にするグローバル データ インフラストラクチャを支えるサービス ネットワークです。

「Pangeo のクラウド化により、スーパーコンピュータ級のストレージや分析設備を手に入れる必要はなくなりました。これは、世界中の気候研究者や新規参入企業にとっては、非常に大規模な気候データのユーザー ベースを拡大する大きなチャンスとなります。私はよく “インスピレーション主導の科学” と “業務用途に耐えうる科学” のギャップについて言及しますが、クラウド上の Pangeo はその 2 つの橋渡しを行い、科学者が独自の視点からデータを調査して分析方法を見つけ出し、その結果を大規模かつ即座に適用することを可能にします。クラウドにおける Pangeo の発展は、地球規模での気候データ インフラストラクチャの未来を描いていくうえで、私たち自身のアーキテクチャ選択に有用な情報を与えてくれるでしょう。」(Balaji 氏)

そうした稀な事象を精密にシミュレートすると、予想される気候の変化に対応する計画を立てるうえで有用な情報が得られます。

LDEO と NCAR の Pangeo チームは、Google Cloud 上の CMIP6 データを使用した分析作業に活力を与え、科学的な問いを引き出すために、先ごろハッカソンを開催しました。参加者の 1 人で、MIT の博士課程で大気、海洋、気候を研究している Henri Drake 氏は、温室効果ガスの排出が一切規制されない最悪の条件を想定して実施した地球温暖化シミュレーションを分析するためのチュートリアルを、最先端の CMIP6 モデルを使って作成しました。

Drake 氏は、これら CMIP6 モデルによる予測について、「数百万行のモデル コードを反映しており、アマゾンの熱帯雨林での森林蒸散、アメリカ中西部の激しい雷雨、北極海の海氷の融解による池の形成など、あらゆるものを表しています。モデルのソース コードを基に自力でシミュレーションを実行しようとすれば、巨大なスーパーコンピュータが必要になってしまうでしょう。気候モデリングのコミュニティが、私たちに代わってシミュレーションの結果を一般公開してくれることを、とても感謝しています」と述べています。

同氏は、データ集約的な気候科学研究とクラウド コンピューティングの相性のよさや、Google Cloud 上の Pangeo ソフトウェア スタックのようなオープンソース ツールの価値を示すために、これらのチュートリアルを MIT の気候変動講座のティーチング アシスタントとして使用しました。「CMIP6 データセットは、厳密に言えばすでに公開されていました。アクセスしにくかっただけです」と同氏は振り返るとともに、次のように述べています。「クラウド ベースのデータとコンピュート パフォーマンスを Pangeo ソフトウェア スタックと組み合わせることで、従来の方法では数週間かかっていた計算をわずか数時間で行えるようになりました。また、Pangeo binder を使用して、そうした計算の結果を世界中の人々が簡単に利用できるようにしました。」

CMIP6 データは、Google Cloud の一般公開データセット プログラムを通じて提供されている他の気象および気候関連データセットと同様に無料で利用できます。私たちは、BigQuery と Cloud Storage によってデータをよりアクセスしやすく、使いやすいものにすることで、新たな発見を促し、複雑な問題に対するイノベーティブなソリューションを後押しして学術研究に貢献したいと考えています。Abernathey 氏にとってクラウド コンピューティングのメリットは、科学研究のニーズにとてもぴったり合うことです。「Google Cloud を利用すれば、座っているだけでスーパーコンピュータが手に入ります。これで、きわめて高速にデータを直接処理できます。」

- By Shane Glass, Program Manager, Google Cloud Public Dataset Program