顧客事例

BenchSci、Google Cloud で製薬会社の新薬提供を支援

2021年1月27日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_Cloud_healthcare_lifesciences.max-2600x2600.jpg

Google Cloud Japan Team

※この投稿は米国時間 2021 年 1 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。

すべてのスタートアップ企業は、達成する方法が 100% 確実ではないとしても、高い目標を掲げる必要があります。私たち BenchSci は、カナダのバイオテクノロジーのスタートアップであり、科学者が患者に新薬を提供する時間を 2025 年までに 50% 短縮するというミッションを掲げています。2015 年の創設以来、当社は膨大な数の公開データセット、研究論文、独自の顧客データセットをマイニングすることで、科学者がより良い実験を設計するのに役立つプラットフォームを構築してまいりました。また、このプラットフォームは完全に Google Cloud 上に構築されており、Google Cloud の広範で高度な機能は、私たちが目標に向かって進む際の支えになってきました。

医薬品の研究開発は常に効率的に行われるとは限らないため、当社のミッション実現には差し迫った必要性があります。たとえば、ある前臨床研究の推定では、前臨床研究の費用の半分が無駄になっており、その額は米国だけで年間 282 億ドル、世界で最大 486 億ドルにのぼるとされています1。また、私たちの見積もりでは、前臨床研究で無駄になっている費用の約 36.1% は、科学者が不適切な試薬（ライフサイエンス実験で使う抗体などの材料）を使用していることが原因です。

そのため、当社は最初の製品として AI による支援を活用した試薬選択ツールをリリースしました。このツールは関連する科学論文や試薬カタログを収集し、独自の機械学習モデルで関連するデータポイントを抽出して、科学者が使いやすいインターフェースを使用して結果を検索できるようにします。科学者は既存の実験的証拠に基づき、特定の試薬が実験に適しているかどうかを事前にすばやく判断できます。これによって、生産的な結果が得られる可能性が最も高い実験に集中し、新しい治療法をより速く患者に提供できます。

これらはすべて Google Cloud 上で実行されます。当社は各種論文、製品カタログ、医療および生物学データベースなどのデータを収集し、Cloud Storage に保存します。その後、Dataflow や BigQuery などのツールから構築されたパイプラインを使用し、データから分析情報を整理して抽出します。次に、機械学習アルゴリズムを使用してデータを処理し、Cloud SQL や Cloud Storage に結果を保存します。科学者は Google Kubernetes Engine（GKE）、Cloud Load Balancer、Identity-Aware Proxy、Cloud CDN、Cloud DNS などのサービス上に構築されたウェブインターフェースを通じて結果にアクセスします。最終的に、当社は複数のクラウドプロジェクト、IAM、Infrastructure as Code を使用して、データの安全性を確保し、顧客同士を分離しています。このようにして、運用ハードウェアだけでなく、最も専門的な研究開発インフラストラクチャ以外をすべて排除し、管理オーバーヘッドを削減できました。

また、Google Cloud のマネージドサービスとスケールしやすい永続コンテナや VM を組み合わせることで、新しい機能のプロトタイプを作成してテストし本番環境に移行でき、自社管理を最小限に抑えられています。

さらに、Google Cloud のスケーリングは BenchSci のニーズに完全に対応できています。当社が分析するデータは 3 年間で桁違いに増加し、たとえば BigQuery と Cloud SQL に切り替えることで、運用上のオーバーヘッドが大幅に削減されました。そして、当社のテキスト処理 ML パイプラインにおける重要なステップを実現可能にしている BigQuery の柔軟性と、データアクセスを支える Cloud SQL の安定性にも感謝しています。

当社のデータ処理パイプラインも徐々に進化してきました。当初はマネージド型の Hadoop サービスである Dataproc を使用していましたが、最終的には Apache Beam を使用する Dataflow でシステムのコードを書き換えしました。Dataflow は数百テラバイトのデータ量にも対応できるため、私たちは基盤となるインフラストラクチャの管理ではなく、ビジネスロジックの実装に専念できます。

最近、自社プラットフォームを拡張して非公開データセットをサポートするようにしました。当初はすべてのお客様に、基礎となる同じ一般公開データを、さまざまなビューで提供していました。やがて一部のお客様から、独自の薬理学データをシステムに取り込むことができないかというお問い合わせをいただくようになりました。これには、マルチテナントシステム間でプロジェクトを厳密に分離して管理せずに、GKE と Config Connector を活用することで、各顧客のデータに固有の環境を作成し、チームの運用需要を抑えることができました。

ご紹介してきたように、Google Cloud を利用することにより、コンピューティングインフラストラクチャやサービスの構築と運用を気にせずに、問題の解決に集中できるようになりました。今後も当社のサービスを Google Cloud で運営することで、自信を持って規模を拡大していくことができます。より多くの幅広いデータソースを収集し、ML アルゴリズムを使用してデータ量に対してより多くの情報を抽出し、これまで以上に広範で多くの独自データを処理して、さまざまなインターフェースとアクセスポイントのセットを通じて幅広いお客様のニーズに対応していきます。私たちの目標は壮大ですが、Google Cloud と提携すれば達成できると思っています。

Google Cloud の医療とライフサイエンスのソリューションの詳細をご覧ください。

^{1. https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002165}

-BenchSci エンジニアリング担当ディレクター Aaron Gabow

-BenchSci プリンシパルエンジニア Craig Newell

投稿先