Google Cloud が米国国立癌研究所の Institute for Systems Biology Cancer Gateway in the Cloud を支え、迅速かつ安全なデータ共有で乳癌研究を支援
Google Cloud Japan Team
※この投稿は米国時間 2021 年 12 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。
今日の研究機関は難しい課題を抱えています。サイロ化したデータセットを選別し、国内の基準と国際標準の双方から逸脱しないよう安全性とコンプライアンスを維持しつつ、グローバルな研究コミュニティでそのデータを分析、共有しなければならないのです。
米国国立癌研究所(NCI)が Cloud Resources の作成に至った背景には、まさにこうした制約があります。これらのリソースは、NCI Cancer Research Data Commons のコンポーネントで、癌に関連するデータセットのクラウド環境での分析を可能にするものです。これによりデータのダウンロードと、カスタムのハードウェアが不要になります。これらのリソースに含まれるのが、Institute for Systems Biology Cancer Gateway in the Cloud(ISB-CGC)です。
ISB-CGC は、Google Cloud を利用することにより、テラバイト単位のゲノムデータおよびプロテオミクス データの安全なホスィングと、研究モデルに統合できる柔軟でスケーラブルな分析ツール提供を可能にしています。従来は完了までに何日もかかっていた複雑な計算がわずか数分または数時間で実行できるようになり、オープンデータ リソース、コンピューティング リソース、アナリティクス リソースがグローバルな研究コミュニティ全体で利用可能になりました。
発見までの時間を短縮
人の命を救うことにつながる可能性を秘めた研究では、スピードとスケールがすべてを左右します。乳癌を例にとって説明します。世界で最も罹患率の高い癌であり、世界保健機関によると、2020 年だけで 200 万人以上の女性が乳癌と診断されました。実に多くの女性が影響を受けています。加えて、それぞれに固有の生物学的特徴があり、癌との向き合い方も人によって千差万別なので、乳癌の研究に使用されるデータはとりわけ膨大です。これをオンプレミスで処理するのは時間も費用もかかりすぎ、患者にとって負担になります。
Google と連携することで、NCI の ISB は世界中の癌研究者にとってデータの利便性を高めただけでなく、癌研究チームの研究のあり方も根本的に変えました。Google Cloud プロダクトの一つである BigQuery は高度にスケーラブルなマルチクラウドのデータ ウェアハウスです。広範な癌のデータセットと、そのデータを迅速に分析する分析および計算インフラストラクチャを研究に利用できるよう、このクラウドベースのプラットフォームを支えています。
ISB のパートナーである General Dynamics Information Technology のバイオインフォマティクス主任研究員、Kawther Abdilleh 博士はこのように述べています。「私たちは、クラウドの費用対効果の高さをより多くのチームに知っていただけるよう活動しています。Google Cloud の BigQuery を研究に使用すると、大量のデータを低価格で、これまで以上に迅速に分析できることが実証できました」
多様なツールやデータセットの統合
従来、研究者はソースデータをダウンロードし、R や Python などのプログラミング言語を使用してローカルのパソコン上で分析を行っていましたが、癌データの量が増え、より複雑になるにつれ、このような手法では対応しきれなくなりました。Notebooks や BigQuery のアプリケーション プログラミング インターフェース(API)のような Google Cloud サービスの使用により、研究者はデータをダウンロードすることなく、ISB-CGC のプラットフォーム上で、クラウドにあるデータを直接、自分の望む方法で分析できるようになりました。
たとえば、ISB の上級研究員である Abdilleh 博士と Boris Aguilar 博士は、クラウドにあるデータの統合と分析に関する 2020 年 9 月の論文の中で、乳癌の臨床的特徴と分子的特徴の間にある新しい生物学的関連の特定にクラウドベースのデータ分析を使用する方法を紹介しました。
Aguilar 博士はこのように説明しています。「たとえば、Google の AI Platform では、R や Python を BigQuery または機械学習と組み合わせて、ゲノムデータの大規模な統計解析を実行するためのノートブックを、すべてクラウド上で簡単に作成できる。この種の分析は、癌関連データのような、大量の異種データに特に有効である」
Abdilleh 博士と Aguilar 博士は統計的なテストを実行し、乳癌をより全面的に捉えるために、BigQuery ユーザー定義関数(UDF)のセットを開発しました。BigQuery に保存された膨大なデータに対してこれらの統計関数を直接実行することで、分析ワークフローの後半でオンプレミスのコンピュータ プログラムを使用するよりも、時間を大幅に短縮できます。実際、BigQuery で UDF を使用することで、通常はスーパーコンピュータを利用して計算に何日もかかる分析が、数分で完了しました。
Abdilleh 博士と Aguilar 博士はこれらの UDF を BigQuery を通じてより広い研究コミュニティで利用できるようにし、この進歩を基礎として人の命を救う研究をさらに進展させられるよう、仲間の乳癌研究者のために扉を開くことができました。
重要な癌データへのグローバルなアクセス
多くの人の命、そしてその家族が癌による影響を受けています。これに対して世界中の研究者が答えの探求に心血を注いでいます。癌研究の加速、その手段の改善は不可欠です。インフラストラクチャとデータクラウド戦略の基盤として Google Cloud を利用した ISB-CGC の成功により、癌研究コミュニティは、癌の早期発見に重要な役割を果たすデータにリアルタイムかつ安全にアクセスするための扉が開かれました。Google Cloud がどのように乳癌研究を支援しているかについて詳しくは、ケーススタディをご覧ください。
- ヘルスケアおよびライフ サイエンス担当マネージング ディレクター Joe Miles