コンテンツに移動
データ分析

「反応ベースの列挙」のスケーリング: Google Cloud を使用した次世代創薬のために

2023年6月2日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。

新薬の発見は現代医学の根幹をなす活動ですが、新薬となる可能性のあるそれらしい化合物は膨大な数にのぼるため(推定では 10 の 60 乗個以上)、「干し草の山から 1 本の針」を探し出すかのごとく非常に困難な課題となっています。画期的な医薬品を発見する可能性を高め、それを医療ニーズが満たされていない患者に提供するには、膨大な化合物を調べ、コンピュータ技術による予測手法を使用して研究室での実験に最適な化合物を選択する必要があります。ここで、合成に利用できる新しい分子を生成する高度な手法である反応ベースの列挙を話題に取り上げます。Psivant のチームは、Google Cloud 上で反応ベースの列挙を実装し、このプロセスの限界を前例のない規模に押し上げてきました。Google Cloud の堅牢なインフラストラクチャとスケーラビリティを活用することで、この手法で新しい化学物質を発見する可能性を解き放ち、画期的な医学の進歩と人生を変えるような治療法につなげています。

私たちの取り組みは、化学には RDKit を、分散型コンピューティングには Ray を活用した Python ベースのプロトタイプから始まりました。当初はうまく運んでいましたが、じき障害に遭遇しました。オンプレミスのコンピューティング リソースが限られており、プロトタイプのポテンシャルが妨げられていました。何百万もの化合物を調べることはできましたが、私たちの理想は数十億以上の化合物を調べることでした。この制限に対処するために、私たちはより優れた柔軟性とスケーラビリティをもつソリューションを模索し、Google Cloud が提供するパワフルなエコシステムにたどり着きました。

Google Cloud インフラストラクチャの活用

Google Cloud のテクノロジーにより、パイプラインを強化し、大規模な化合物の調査を行うことができました。Dataflow、Google Workflows、Compute Engine を統合することで、柔軟性と復元力を備えた洗練された高パフォーマンス システムを構築しました。

Dataflow は、大量のデータセットを効果的に管理、操作できるリアルタイムのフォールト トレラント、並列処理機能を提供するマネージド バッチ&ストリーミング システムです。Google Workflows は、列挙に関連する複雑な多段階プロセスを調整し、さまざまなタスク間のスムーズな移行とエラー処理を保証します。そして Compute Engine は、要求の厳しい計算ワークロードを実行するためのスケーラブルでカスタマイズ可能なインフラストラクチャを提供し、最適なパフォーマンスと費用対効果を保証するものです。こうしたテクノロジーを組み合わせることで、反応ベースの列挙の無限の可能性を探求できる最先端のソリューション基盤を築くことができました。

私たちは、PCollection(計算を効率的に処理できるように設計された分散型辞書)などの独自のデータ構造を備えた多用途プログラミング モデルである Apache Beam に依拠した Dataflow を利用して、求めていたスケーラビリティを実現するクラウドネイティブ ソリューションを構築しました。

Dataflow の採用

パイプライン開発では、パフォーマンスと費用対効果のバランスをとることが重要でした。そこで Dataflow が大きな役割を果たしました。これにより、パフォーマンスを損なうことなくリソースの利用を最適化し、最適なリソースの割り当てとコスト制御への道が開かれました。

私たちのパイプラインには、化学ライブラリと Google Cloud エコシステムについての深い理解が必要でした。シンプルで高度に分散された列挙パイプラインを構築し、あらゆるステップでスケーラビリティとパフォーマンスを確保しながら、さまざまな化学操作を追加しました。専門家のガイダンスとトラブルシューティング サポートを提供してくれた Google Cloud のチームは、私たちの成功において極めて重要な役割を果たしました。

1 千億、そしてその先へ

Google Cloud 上で反応ベースの列挙を大規模に実装するという私たちの取り組みは、コラボレーションの精神、絶え間ないイノベーション、揺るぎない卓越性の追求の証となっています。スマートなクラウドネイティブ エンジニアリングと最先端のテクノロジーにより、私たちのワークフローは迅速なスケーラビリティを実現し、数分以内に数千人のワーカーを配置できるため、1 日に 1 千億という驚異的な数の化合物を調べることができます。今後を見据え、頼りになる MLOps ソリューションとして Vertex AI をワークフローに統合し、Batch の堅牢な機能で高スループットの仮想スクリーニング実験を強化する予定です。これにより、イノベーションを起こす力をさらに高められることを楽しみにしています。

分散型コンピューティングのガイダンスを通じて、非常にスケーラブルなパイプラインの構築に対する私たちの理解を深めてくださった Javier Tordable 氏に心から感謝の意を表したいと思います。

計算化学と創薬の限界を絶え間なく押し広げる中、反応ベースの列挙の計り知れない可能性は私たちに常にモチベーションを与えてくれます。この可能性を後押しするのは、Google Cloud の高度で柔軟なインフラストラクチャと Psivant の QUAISAR プラットフォームの包括的な機能との組み合わせです。この組み合わせによってこそ、最も困難な病気と戦うための画期的な次世代医薬品を設計できるようになるのです。


- Psivant、データ サイエンスおよび ML 責任者 Shivam Patel 氏
- Google Cloud、エンタープライズ カスタマー エンジニア Vincent Beltran
投稿先