Google Cloud のバイオテクノロジー加速化ツール
Google Cloud Japan Team
※この投稿は米国時間 2022 年 12 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。
バイオファーマ企業は、クイック スタート ツールとセットアップ スクリプトを利用して、クラウドでスケーラブルなワークロードの実行をすぐに開始できるようになりました。
この機能は、病気の治療法の開発から新しい合成生体材料の作成まで、バイオファーマ分野のサイエンティストや組織に恩恵をもたらします。Google Cloud のソリューション チームは、今後もお客様のフィードバックに基づいてプロダクト開発を行い、Google Cloud のお客様が基盤として構築を行えるプラットフォームに貢献してまいります。
このガイドでは、特定のワークロードのために簡素化されたクラウド アーキテクチャを使い始める方法を説明します。最先端の研究とバイオテクノロジー開発を行う組織は、サイエンスを重視することが多く、Google のベスト プラクティスに組み込まれた既存のテクノロジー インフラストラクチャを出発点として活用することで貴重なリソースを節約できます。バイオテクノロジー加速化ツールは、柔軟性を確保しながら、サイエンティストと研究者がより多くのことを処理できるようにします。このガイドに説明されている大部分のツールには、バイオファーマ業界においてワークロードの環境の立ち上げを自動化するクイック スタート Terraform スクリプトが付属しています。
ソリューションの概要
このデプロイでは、Google のベスト プラクティスに基づいて基盤となるインフラストラクチャを作成し、VPC ネットワーキング、セキュリティ、データアクセス、分析ノートブックなどを含む適切なネットワーキングを構成します。すべての環境は、構成ファイル内のクラウドとオンプレミスのリソースを定義する Terraform スクリプトで作成されています。一貫性のあるワークフローをインフラストラクチャのプロビジョニングのために使用できます。
ゼロから始める場合は、組織のコンピューティング環境の安全を維持するために、セキュリティ、ネットワーキング、ID アクセス管理の設定を最初に検討する必要があります。このためには、以下の手順を行います。
Google Cloud Platform にログインする
Terraform 自動化リポジトリ(セキュリティ基盤のブループリント内)を使用して新しい環境をデプロイする
ワークロードの需要に応じて、ソリューションのツールも変える必要があります。Google は、AlphaFold、ゲノミクス シーケンシング、癌データの分析、臨床試験などを含む、さまざまなバイオ テクノロジー業界のユースケースのための簡単にデプロイできるコードとワークフローを提供します。
AlphaFold
DeepMind によって開発された AlphaFold は、アミノ酸の配列情報からタンパク質の 3D 構造を予測する AI システムで、実験に匹敵する精度を定期的に達成しています。創薬とタンパク質設計を行う研究者の中でも、特に計算生物学者や化学者にとって役に立ちます。AlphaFold バッチ推論を独自のタンパク質配列で実行開始するには、これらのセットアップ スクリプトを実行します。バッチ推論ソリューションをさらにご理解いただくために、こちらの最適化された推論パイプラインの説明および動画による説明をご覧ください。お客様のチームが大規模に AlphaFold を実行する必要がなく、それほど最適化されていないハードウェアで 1 つずつ構造を実行することに問題がなければ、簡素化された AlphaFold 実行ガイドをご覧ください。
ゲノミクス ツール
今日、研究者は膨大な量の生物学的データを生成することができます。このデータを入手後、データを精製して分析し、意味を持たせます。独自のアルゴリズムの開発や共通のツールとワークフローの実行など、役立つソフトウェア パッケージを多数ご利用いただけます。
検討すべきテクノロジーに関して、いくつか推奨事項があります。どのようなテクノロジーを選ぶかは、独自のニーズと経験を基に判断する必要があります。万能なソリューションはありません。
組織に役立つ可能性のあるゲノミクス ツールには、一般化されたゲノミクス シーケンシング パイプライン、Cromwell ゲノミクス、Databiosphere dsub ゲノミクス、DeepVariant があります。
Cromwell
ブロード研究所は、ワークフロー定義言語(WDL)と Cromwell と呼ばれる関連するランナーを開発しました。これらを一緒に使うことで、ブロード研究所は推奨されるプラクティスとなるパイプラインの構築、大規模な実行、および公開ができるようになりました。ブロード研究所が公開している GATK ワークフローの実行をご希望の場合、または同じ技術スタックの使用にご関心をお持ちの場合は、Cromwell のデプロイをご参照ください。
Dsub
このモジュールは、databiosphere dsub をワークフロー エンジン、コンテナ化されたツール(FastQC)、および Google Cloud Life Science API として使用してパイプライン ジョブの実行を自動化できるようパッケージ化されています。この関数は、他のバイオインフォマティクス ツールに対応できるように簡単に修正できます。
Dsub はコマンドライン ツールで、クラウドで簡単にバッチ スクリプトを送信して実行できるようにします。Cloud Functions の関数には、Google Cloud でパイプライン ジョブを実行する dsub ライブラリが組み込まれています。
DeepVariant
DeepVariant は、ディープ ニューラル ネットワークを使用して次世代 DNA 配列データから遺伝的バリアントをコールする、解析用パイプラインです。
癌データの分析
ISB-CGC(ISB Cancer Gateway in the Cloud)により、研究者はパワフルなウェブベース ツールのコレクションと Google Cloud テクノロジーを使用して、クラウドベースの癌データを分析できます。これは、クラウド プラットフォームにより癌データと演算能力を結びつける作業を行う 3 つの国立癌研究所(NCI)のクラウド リソースの一つです。
インタラクティブなウェブベースの癌データの分析と調査
ISB-CGC 癌データの調査と分析を一連のグラフィカル ユーザー インターフェース(GUI)で行います。この GUI により、ユーザーは 1 つ以上の公開データセット(TCGA、CCLE、TARGET など)からデータを選択してフィルタリングし、このデータを自身のアップロード済みデータと組み合わせ、さまざまな組み込みの視覚化ツールを使用して分析できます。
Google BigQuery を使用した癌データ分析
処理されたデータは、Genomics Data Commons(GDC)および Proteomics Data Commons(Proteomics Data Commons)などのソースからデータの種類別(たとえば、臨床、DNA メチル化、RNAseq、体細胞突然変異、タンパク質発現など)に統合され、ISB-CGC Google BigQuery テーブルに変換されます。これによりユーザーは、構造化クエリ言語(SQL)を使用して、キュレートされた BigQuery テーブルの数千人の患者の情報を迅速に分析できます。SQL は Google BigQuery コンソールから使用できますが、Python、R および複雑なワークフロー内に組み込むことも可能で、ユーザーに柔軟性を提供します。簡単で、優れた費用対効果のある BigQuery の「バースト対応」により、数百万ものデータポイントの組み合わせにおける統計の相関を数分以内に計算できます(非クラウドペース システムでは数日または数週間)。
利用可能な癌データソース
Therapeutically Applicable Research to Generate Effective Treatments (TARGET)
その他のデータソースはこちらをご参照ください。
臨床試験の研究
FDA の MyStudies プラットフォームにより、組織は iOS や Android 上で専用アプリを使って、参加者とやりとりができる研究を素早く構築してデプロイできます。MyStudies アプリは、限定的に参加者に配布することも、App Store と Google Play で公開することもできます。
このオープンソース リポジトリは、すべてのウェブアプリやモバイルアプリを含む、完全な FDA MyStudies インスタンスを実行するのに必要なコードを含んでいます。
オープンソース デプロイ ツールが付属しているため Google Cloud Platform(GCP)への半自動デプロイが可能です。これらのツールを使うと、わずか数時間で FDA MyStudies プラットフォームをデプロイできます。ツールはコンプライアンス ガイドラインに従い、エンドツーエンドのコンプライアンスの取り組みを簡素化しています。他のプラットフォームやオンプレミスのシステムへのデプロイは手動で実行できます。
データ サイエンス
一般化されたデータ サイエンスのパイプラインでカスタム予測モデルを構築する、またはノートブック内でインタラクティブな分析を行うには、Google のデータ サイエンス ワークフロー セットアップ スクリプトをチェックして、すぐに作業に取り掛かりましょう。データベースの接続と設定、Virtual Private Cloud の有効化、ノートブックが含まれます。
参考資料
ゲノミクスと二次分析
患者のモニタリング
バリアント分析
機械学習と分析用 Healthcare API
放射線画像抽出
RAD Lab - イノベーションのための安全なサンドボックス
研究中に、科学者がプロジェクトの柔軟性とコラボレーションの機会を増やすために、研究モジュールをクラウドで立ち上げるよう求められることはよくあります。しかし、必要なクラウドスキルがないと、多くのプロジェクトを着実に開始させることができません。
イノベーションを加速するため、Google Cloud ベースのサンドボックス環境である RAD Lab は、テクノロジー チームや研究チームによる研究開発から本番環境への迅速な前進を支援します。RAD Lab は、クラウドネイティブな研究、開発、プロトタイピングのためのソリューションで、既存のインフラストラクチャにリスクを与えることなく実験を行うことで、クラウド環境の立ち上げを加速させるよう設計されています。また、公共機関や学術機関の特定のテクノロジーやスケーラビリティの要件を満たすように設計されており、予測可能なサブスクリプション モデルにより予算や調達を簡素化します。リポジトリは、こちらでご覧ください。
RAD Lab は、分析用データを収集するためのフレキシブル環境を提供し、費用超過のリスクなしに、チームが自由に独自のペースで実験や革新を行うことを可能にします。主な特長は以下のとおりです。
クラウド上で動作するオープンソースの環境で、ハードウェアへの投資やベンダー ロックインなしに、迅速なデプロイが可能。
FedRAMP、HIPAA、GDPR セキュリティ ポリシーなどの規制要件を遵守した Google Cloud ツール上に構築。
すべてのプロジェクトで共通の IT ガバナンス、ロギング、およびアクセス制御。
BigQuery、Vertex AI などの分析ツールや、あらかじめ用意されたノートブックのテンプレートとのインテグレーション。
クラウドベースの環境のトレーニング、テスト、構築を促進するドキュメントやコード例を含むベスト プラクティスの運用ガイダンス。
Google Cloud のスペシャリストが行う、任意のユーザー向けのオンボーディング ワークショップ。
次世代の RAD Lab には、技術的な知識をあまり持たないユーザーが Google Cloud リソースをわずか 3 ステップでデプロイできる RAD Lab UI が含まれます。
このガイドは、Alex Burdenko、Emily Du、Joan Kallogjeri、Marshall Worster、Shweta Maniar、および RAD Lab チームの貢献のもとに実現しました。
-カスタマー エンジニア / 機械学習スペシャリスト Meera Lakhavani- カスタマー エンジニア Charlotte Pindar