Healthcare & Life Sciences

Google Cloud のバイオテクノロジー加速化ツール

2022年12月15日

Google Cloud Japan Team

※この投稿は米国時間 2022 年 12 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。

バイオファーマ企業は、クイックスタートツールとセットアップスクリプトを利用して、クラウドでスケーラブルなワークロードの実行をすぐに開始できるようになりました。

この機能は、病気の治療法の開発から新しい合成生体材料の作成まで、バイオファーマ分野のサイエンティストや組織に恩恵をもたらします。Google Cloud のソリューションチームは、今後もお客様のフィードバックに基づいてプロダクト開発を行い、Google Cloud のお客様が基盤として構築を行えるプラットフォームに貢献してまいります。

このガイドでは、特定のワークロードのために簡素化されたクラウドアーキテクチャを使い始める方法を説明します。最先端の研究とバイオテクノロジー開発を行う組織は、サイエンスを重視することが多く、Google のベストプラクティスに組み込まれた既存のテクノロジーインフラストラクチャを出発点として活用することで貴重なリソースを節約できます。バイオテクノロジー加速化ツールは、柔軟性を確保しながら、サイエンティストと研究者がより多くのことを処理できるようにします。このガイドに説明されている大部分のツールには、バイオファーマ業界においてワークロードの環境の立ち上げを自動化するクイックスタート Terraform スクリプトが付属しています。

ソリューションの概要

このデプロイでは、Google のベストプラクティスに基づいて基盤となるインフラストラクチャを作成し、VPC ネットワーキング、セキュリティ、データアクセス、分析ノートブックなどを含む適切なネットワーキングを構成します。すべての環境は、構成ファイル内のクラウドとオンプレミスのリソースを定義する Terraform スクリプトで作成されています。一貫性のあるワークフローをインフラストラクチャのプロビジョニングのために使用できます。

ゼロから始める場合は、組織のコンピューティング環境の安全を維持するために、セキュリティ、ネットワーキング、ID アクセス管理の設定を最初に検討する必要があります。このためには、以下の手順を行います。

Google Cloud Platform にログインする
Terraform 自動化リポジトリ（セキュリティ基盤のブループリント内）を使用して新しい環境をデプロイする

ワークロードの需要に応じて、ソリューションのツールも変える必要があります。Google は、AlphaFold、ゲノミクスシーケンシング、癌データの分析、臨床試験などを含む、さまざまなバイオテクノロジー業界のユースケースのための簡単にデプロイできるコードとワークフローを提供します。

AlphaFold

DeepMind によって開発された AlphaFold は、アミノ酸の配列情報からタンパク質の 3D 構造を予測する AI システムで、実験に匹敵する精度を定期的に達成しています。創薬とタンパク質設計を行う研究者の中でも、特に計算生物学者や化学者にとって役に立ちます。AlphaFold バッチ推論を独自のタンパク質配列で実行開始するには、これらのセットアップスクリプトを実行します。バッチ推論ソリューションをさらにご理解いただくために、こちらの最適化された推論パイプラインの説明および動画による説明をご覧ください。お客様のチームが大規模に AlphaFold を実行する必要がなく、それほど最適化されていないハードウェアで 1 つずつ構造を実行することに問題がなければ、簡素化された AlphaFold 実行ガイドをご覧ください。

ゲノミクスツール

今日、研究者は膨大な量の生物学的データを生成することができます。このデータを入手後、データを精製して分析し、意味を持たせます。独自のアルゴリズムの開発や共通のツールとワークフローの実行など、役立つソフトウェアパッケージを多数ご利用いただけます。

検討すべきテクノロジーに関して、いくつか推奨事項があります。どのようなテクノロジーを選ぶかは、独自のニーズと経験を基に判断する必要があります。万能なソリューションはありません。

組織に役立つ可能性のあるゲノミクスツールには、一般化されたゲノミクスシーケンシングパイプライン、Cromwell ゲノミクス、Databiosphere dsub ゲノミクス、DeepVariant があります。

Cromwell

ブロード研究所は、ワークフロー定義言語（WDL）と Cromwell と呼ばれる関連するランナーを開発しました。これらを一緒に使うことで、ブロード研究所は推奨されるプラクティスとなるパイプラインの構築、大規模な実行、および公開ができるようになりました。ブロード研究所が公開している GATK ワークフローの実行をご希望の場合、または同じ技術スタックの使用にご関心をお持ちの場合は、Cromwell のデプロイをご参照ください。

Dsub

このモジュールは、databiosphere dsub をワークフローエンジン、コンテナ化されたツール（FastQC）、および Google Cloud Life Science API として使用してパイプラインジョブの実行を自動化できるようパッケージ化されています。この関数は、他のバイオインフォマティクスツールに対応できるように簡単に修正できます。

Dsub はコマンドラインツールで、クラウドで簡単にバッチスクリプトを送信して実行できるようにします。Cloud Functions の関数には、Google Cloud でパイプラインジョブを実行する dsub ライブラリが組み込まれています。

DeepVariant

DeepVariant は、ディープニューラルネットワークを使用して次世代 DNA 配列データから遺伝的バリアントをコールする、解析用パイプラインです。

癌データの分析

ISB-CGC（ISB Cancer Gateway in the Cloud）により、研究者はパワフルなウェブベースツールのコレクションと Google Cloud テクノロジーを使用して、クラウドベースの癌データを分析できます。これは、クラウドプラットフォームにより癌データと演算能力を結びつける作業を行う 3 つの国立癌研究所（NCI）のクラウドリソースの一つです。

インタラクティブなウェブベースの癌データの分析と調査

ISB-CGC 癌データの調査と分析を一連のグラフィカルユーザーインターフェース（GUI）で行います。この GUI により、ユーザーは 1 つ以上の公開データセット（TCGA、CCLE、TARGET など）からデータを選択してフィルタリングし、このデータを自身のアップロード済みデータと組み合わせ、さまざまな組み込みの視覚化ツールを使用して分析できます。

Google BigQuery を使用した癌データ分析

処理されたデータは、Genomics Data Commons（GDC）および Proteomics Data Commons（Proteomics Data Commons）などのソースからデータの種類別（たとえば、臨床、DNA メチル化、RNAseq、体細胞突然変異、タンパク質発現など）に統合され、ISB-CGC Google BigQuery テーブルに変換されます。これによりユーザーは、構造化クエリ言語（SQL）を使用して、キュレートされた BigQuery テーブルの数千人の患者の情報を迅速に分析できます。SQL は Google BigQuery コンソールから使用できますが、Python、R および複雑なワークフロー内に組み込むことも可能で、ユーザーに柔軟性を提供します。簡単で、優れた費用対効果のある BigQuery の「バースト対応」により、数百万ものデータポイントの組み合わせにおける統計の相関を数分以内に計算できます（非クラウドペースシステムでは数日または数週間）。

利用可能な癌データソース

TCGA
Pan-Cancer Atlas BigQuery Data
Therapeutically Applicable Research to Generate Effective Treatments (TARGET)
その他のデータソースはこちらをご参照ください。

臨床試験の研究

FDA の MyStudies プラットフォームにより、組織は iOS や Android 上で専用アプリを使って、参加者とやりとりができる研究を素早く構築してデプロイできます。MyStudies アプリは、限定的に参加者に配布することも、App Store と Google Play で公開することもできます。

このオープンソースリポジトリは、すべてのウェブアプリやモバイルアプリを含む、完全な FDA MyStudies インスタンスを実行するのに必要なコードを含んでいます。

オープンソースデプロイツールが付属しているため Google Cloud Platform（GCP）への半自動デプロイが可能です。これらのツールを使うと、わずか数時間で FDA MyStudies プラットフォームをデプロイできます。ツールはコンプライアンスガイドラインに従い、エンドツーエンドのコンプライアンスの取り組みを簡素化しています。他のプラットフォームやオンプレミスのシステムへのデプロイは手動で実行できます。

データサイエンス

一般化されたデータサイエンスのパイプラインでカスタム予測モデルを構築する、またはノートブック内でインタラクティブな分析を行うには、Google のデータサイエンスワークフローセットアップスクリプトをチェックして、すぐに作業に取り掛かりましょう。データベースの接続と設定、Virtual Private Cloud の有効化、ノートブックが含まれます。

参考資料

Life Sciences の公開データセット
創薬とコンピュータ技術を利用した GCP でのバーチャルスクリーニング
セマンティック科学論文検索
GCP での研究ワークロード

ゲノミクスと二次分析
患者のモニタリング
バリアント分析
機械学習と分析用 Healthcare API
放射線画像抽出

RAD Lab - イノベーションのための安全なサンドボックス

研究中に、科学者がプロジェクトの柔軟性とコラボレーションの機会を増やすために、研究モジュールをクラウドで立ち上げるよう求められることはよくあります。しかし、必要なクラウドスキルがないと、多くのプロジェクトを着実に開始させることができません。

イノベーションを加速するため、Google Cloud ベースのサンドボックス環境である RAD Lab は、テクノロジーチームや研究チームによる研究開発から本番環境への迅速な前進を支援します。RAD Lab は、クラウドネイティブな研究、開発、プロトタイピングのためのソリューションで、既存のインフラストラクチャにリスクを与えることなく実験を行うことで、クラウド環境の立ち上げを加速させるよう設計されています。また、公共機関や学術機関の特定のテクノロジーやスケーラビリティの要件を満たすように設計されており、予測可能なサブスクリプションモデルにより予算や調達を簡素化します。リポジトリは、こちらでご覧ください。

RAD Lab は、分析用データを収集するためのフレキシブル環境を提供し、費用超過のリスクなしに、チームが自由に独自のペースで実験や革新を行うことを可能にします。主な特長は以下のとおりです。