Google Cloud Platform

ゲスト投稿 : 創薬用の大規模仮想スクリーニングに GCP を活用するSilicon Therapeutics

編集部注 : 今回は米国マサチューセッツ州ボストンに本拠を置く Silicon Therapeutics の投稿を紹介します。同社はヒューマン バイオロジーに関連する複雑な生化学の問題の文脈で、コンピュータを活用したアプローチを展開しています。

私たちはコンピュータを活用した創薬に取り組んでいる企業です。最近、スクリーニング プラットフォームの INSITE を Google Cloud Platform(GCP)にデプロイしました。1,000 万以上の市販の分子化合物を次世代医薬品の出発物質候補として分析することが目的です。

私たちは 1 週間で、タンパク質が特定の分子にどのように反応するかを評価するドッキング計算を 5 億件以上実行しました。各計算には、分子が標的タンパク質の機能を結合して変化するかどうかを評価できるように、タンパク質への微小分子の優先配向と関連エネルギー特性を予測するドッキング プログラムが含まれます。

Google Compute Engine の標準マシン タイプとプリエンプティブル VM を組み合わせて最大 1 万 6,000 コアを利用し、合計 300 万コア時間と約 3 万ドルのコストがかかりました。莫大な時間と費用をかけたように聞こえるかもしれませんが、すべての化合物を実験でスクリーニングするよりもずっと安上がりで所要時間も短くて済みます。

INSITE プラットフォームのような物理学ベースのアプローチを取ると、コンピュータを利用する他のスクリーニング アプローチと比べて、コンピュータ利用コストははるかにかさみます。ですが、私たちは活性化合物に関する事前情報(結合を行うことが知られている薬のような化合物をこの標的は持っていない、など)を一切使わずに、新しいバインダーを発見できます。

計算の最終段階で、私たちは有望な上位 1,000 の分子に対して全原子の分子力学(MD)シミュレーションを実行しました。どの分子を購入し、実験で活性を分析するかを決めるためです。

結果 : 私たちは、GCP 上の INSITE プラットフォームを使って首尾よくスクリーニングを完了し、いくつかの分子を発見しました。これらの分子については、狙いどおりの細胞ベースの活性を持つことを最近の実験で確認しています。

他のパブリック クラウド サービスではなく、GCP でハイパフォーマンス コンピューティング(HPC)ジョブを実行することを選択したのは、以下のような理由からです。

  • ハイパフォーマンス コンピュート インフラストラクチャを利用可能 : Compute Engine は、大量のコアとメモリを利用できるハイパフォーマンス プロセッサのラインアップが充実しています。また、GPU も提供しています。GPU は分子力学や自由エネルギーの計算など、私たちが行う計算の一部にうってつけです。SSD もパフォーマンスに大いに貢献しました。このスクリーニングのための総 I/O は、生データで 40 TB を超えていたからです。フロントエンドとコンピュート ノード間の高速接続も大きな要素でした。フロントエンド ディスクはコンピュート ノードに NFS でマウントされていたからです。
  • 業界標準ツールのサポート : 私たちは新興企業なので、私たちが適所と考えるどの場所でもワークロードを実行できることを重視しています。私たちの優先順位は、プロジェクトの課題(化学や生物学)や競争、ビジネス チャンス、コンピュート リソースの可用性によって急に変わることがあります。私たちの INSITE プラットフォームはオープンソース ソフトウェアとプロプライエタリな社内ソフトウェアを組み合わせて構築されているため、社内およびパブリック クラウドでのポータビリティと再現性が非常に重要です。
  • 魅力的な料金モデル : プリエンプティブル VM は、経済性と予測可能性が絶妙に組み合わされており、標準インスタンスよりも最大で 80 % 安く利用できます。入札の必要はなく、その結果に振り回されることもありません。つまり、入札の不調でジョブが強制終了される心配はないのです。こうした事態が発生する可能性がある場合は、スクリーニングの完了が大幅に遅れるおそれがあり、ジョブ管理のために無用な人手がかかってしまいます。
私たちは、スクリーニングのために複数のクラスタを初期化しました。具体的には、クラスタのフロントエンドは 3 つの n1-highmem-32 VM インスタンス(正規料金)で構成されていました。それぞれ RAM は 208 GB です。これらのインスタンスはキューイング システムを実行し、化合物ライブラリを保存する 2 TB の SSD NFS ファイルストアに接続されていました。

各フロントエンド ノードは最大 128 のコンピュート ノードを生成しました。これらは、28.8 GB のメモリを搭載する n1-highcpu-32 のプリエンプティブル VM として構成されていました。これらのコンピュート ノードが分子化合物のスクリーニングを実行し、結果をファイルストアに書き込みました。

プリエンプティブル VM の実行時間は最大 24 時間です。24 時間が経過すると、フロントエンド ノードは、それらのコンピュート ノードで実行されていたジョブを迅速に保存し、新しいノード セットを再生成してジョブを引き継ぎます。1,000 万の化合物すべてのスクリーニングが完了するまで、これが繰り返されました。

コンピュート ジョブを管理するために、私たちは広く普及した 2 つのオープンソース ツールを利用しました。その 1 つである Slurm は、世界 TOP500 クラスタの 60 % で使われているワークロード マネージャです。もう 1 つの ElastiCluster は、さまざまなクラウド インフラストラクチャでホストされるコンピュート クラスタの作成、管理、セットアップを行うコマンドライン ツールを提供します。これらのオープンソース パッケージを使えば、有料ソフトウェア ソリューションが提供する機能の大部分が経済的に得られます。そして、ワークロードを社内でもどこでも、確実に実行できます。

より多くのコンピュート リソース = より良い結果

結局のところ、GCP を利用する最大のメリットは、社内リソースを使う場合よりも化合物を徹底的にスクリーニングできることです。

今回の分析では、標的タンパク質の柔軟性が非常に高く、私たちは膨大なコンピュート能力にアクセスすることでタンパク質の柔軟性を扱い、それを通じてシステムの物理構造をより正確にモデリングできました。これにより、GCP リソースを使わなかった場合よりも多くの活性化合物を発見できたと考えられます。

実は、タンパク質はすべて柔軟であり、リガンド結合によって何らかの誘導適合を経験します。したがって、仮想スクリーニングで最良の結果を目指すなら、タンパク質の柔軟性を扱うことが常に重要です。

ほとんどの分子ドッキング プログラムは、リガンドの柔軟性を扱うことだけにとどまります。そのため、受容体構造があまり適切でなければ、活性化合物は適合しないかもしれません。そうなれば、ドッキング プログラムがいかに優れていても、見過ごされてしまいます。

当社のスクリーニング プラットフォームである INSITE は、仮想スクリーニングのヒット率を大幅に高める新しい方法でタンパク質の柔軟性を包含します。市販の数百万の化合物をスクリーニングする際は膨大なコンピュート リソースが必要になりますが、あえてそうしているのです。

silicon-therapeautics8dsx.PNG
標的タンパク質の動的性質の例(インターロイキン 018、IL18)

私たちは最初の 1,000 万の化合物から、ラボでの実験による検証の対象として、有望な 250 の化合物を選別しました。私たちは小規模企業なので、数百万の化合物を実験でスクリーニングする経営体力はありません。ただし、私たちが INSITE プラットフォームで採用しているような正確な仮想スクリーニング アプローチを取っていれば、そもそもそうする必要はありません。

うれしいことに、これらの化合物のうち少なくとも 5 つは、人の細胞内で活性を示しています。これは、この 5 つの化合物が、新薬開発の有望な出発点となることを示唆しています。私たちの知る限りでは、この重要で挑戦的な、がんにおける免疫標的の薬らしい小分子活性剤はありません。

私たちが行っている研究開発について興味のある方は、こちらのウェブ サイトをご覧ください。HPC、GPU、分子シミュレーションの専門知識や経験を有するエンジニアの方は、こちらの求人ページをぜひご覧ください。

* この投稿は米国時間 7 月 17 日、Silicon Therapeutics の CSO である Woody Sherman 氏と、Principal Investigator である Vipin Sachdeva 氏によって投稿されたもの(投稿はこちら)の抄訳です。

- By Woody Sherman, CSO and Vipin Sachdeva, Principal Investigator, Silicon Therapeutics