コンテンツに移動
デベロッパー

Vertex AI で AlphaFold を使って医学的発見を促進する

2022年12月14日
https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_T31DfPW.max-1300x1300.jpeg
Google Cloud Japan Team

※この投稿は米国時間 2022 年 11 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。

無償ソリューションを使って、医療研究に ML を取り入れる

テクノロジーと科学を組み合わせることで、多くを学び、偉大な発見に結び付けることができます。今回ご紹介するのは、AI システムを使ってタンパク質の形状を予測できるようにしたことで、生物学のあらゆる分野で研究を加速する可能性が広がった例です。体内の一つひとつの細胞の中では、何十億もの微小な分子機構が休みなく働いています。その仕組みのおかげで、目は光を感知し、ニューロンは発火し、DNA 内の「命令」を読み取ることができます。

この複雑な機構は、「タンパク質」という名で知られています。

タンパク質フォールディングのパズル

タンパク質フォールディングとは、タンパク質が生物学的に機能するために起きる自然現象であり、その過程は複雑で、エラーが発生することもあります。科学者たちは、何十年もの間、アミノ酸の配列からタンパク質の構造を正確に予測する方法を探求し、タンパク質の仕組みに対する理解を深めようと取り組んできました。

ここで大きな壁となって立ちはだかっているのは、タンパク質は既知のものだけで 2 億種類以上存在するという事実です。これらは、それぞれ独自の 3D 形状を持ち、それによって働きが決まります。アミノ酸の配列は無数にあり、3D 構造を特定する実験には多くの時間と費用を要するため、正確な構造がわかっているタンパク質はごくわずかにすぎません。また、実験の方法も、統計的な正確さという意味では、信頼性に大きく欠けているのが現状です。

Deepmind の大きな飛躍

2020 年、Alphabet の人工知能研究部門である DeepMind は、タンパク質の構造特定において AlphaFold と呼ばれるディープ ラーニング モデルを使用することで飛躍的進歩を遂げました。

AlphaFold とは、一般に公開されている約 17 万種類のタンパク質の構造データでトレーニングしたモデルです。コンピュータを使って大規模かつ高い正確度でタンパク質の 3D 形状を規則的に予測するという初の快挙を成し遂げました。


https://storage.googleapis.com/gweb-cloudblog-publish/original_images/image6_6XJJdVs.gif

AlphaFold は科学界に大きな反響を巻き起こし、基礎科学の分野における発見を促す手段としての AI の可能性を印象付けています。Deepmind は最近、AlphaFold による予測をオープンソースとして公開し、誰でも利用できるようにしました。これまでに、190 か国から 50 万人以上の研究者が AlphaFold のタンパク質構造データベースにアクセスし、リーシュマニア症やシャーガス病など、命に関わりのある病気の治療法の発見に一歩近付いています。

現在では、Deepmind が公開する予測セットの数は約 100 万件から 2 億 1,400 万件へと 200 倍以上に増え、既知の自然界のタンパク質をほぼすべて網羅しています。

Google Cloud で予測をオープンソースとして公開

Google Cloud と Deepmind は共同で、Google Cloud 一般公開データセット プログラムの一環として植物、細菌、動物といった生命体のタンパク質の予測構造データセットを公開しました。これにより、無料での一括ダウンロードが可能になっただけでなく、BigQuery を使ってこのデータセットを対象としたカスタムクエリも作成できるようになりました。
https://storage.googleapis.com/gweb-cloudblog-publish/images/image8_H8FTpCy.max-800x800.png

Google Cloud Vertex AI で AlphaFold を実行する

独自のデータセットを対象に AlphaFold を実行し、タンパク質構造の予測を求めるにあたっては、以下のような作業が発生します。

  • 遺伝子配列データベースに対して、特徴量エンジニアリングを設定する

  • データを前処理する

  • 事前トレーニング済みのモデルに対し、上述の手順で準備した入力データを使って AlphaFold を実行する

https://storage.googleapis.com/gweb-cloudblog-publish/images/image7_wj7gqUe.max-1500x1500.png

こうした作業を行うには、CPU や GPU の割り当て、ノートブック環境のホスティング、大規模な実験のためのスケールアップが必要となってきます。AlphaFold を試してみたいという場合も、大規模な組織に幅広く導入する場合も、AlphaFold のためにオンプレミスのシステムやクラウド サーバーを構築、構成するのは大変な作業です。

Google Cloud と Deepmind は、密接に連携してこうした課題に応えています。具体的には、一般公開データセット プログラムだけでなく、Vertex AI 上で AlphaFold を実行するためのエンドツーエンドのコードサンプルや、エンドツーエンドのマネージド ML プラットフォームを提供することで、迅速なデプロイを可能にしています。Vertex AI 上で AlphaFold を導入すれば、データ サイエンスや機械学習のワークフローを単一の開発環境で管理できます。演算処理やストレージ、本番環境用のエンドツーエンドのノートブックまで、事前構成済みのものを利用できるので、新しい ML 環境のセットアップや、オーケストレーションの自動化、大規模なクラスタの管理といった手間が省かれるというメリットがあります。

AlphaFold 推論ワークフロー(データ準備、特徴量エンジニアリング、デプロイ)は、Vertex AI を使って単純化できます。手動でセットアップするのと異なり、オーケストレーターを使用することでステップの同時読み込みに対応できるため、高速な予測と効率的なトラッキングが実現します。

Vertex AI Workbench で試す

Google Cloud では、AlphaFold の簡易バージョンにご関心をお持ちの方のために、Colab ノートブックを提供しています。このノートブックでは、テンプレート(相同構造)を使用しておらず、BFD データベースの一部のみを使用しています。Vertex AI Workbench 上でデプロイできるため、作成済みのカスタム コンテナ イメージを指定できるのが特徴です。具体的には、次のようなことができます。

  1. 遺伝子データベースへのアクセスを構成する

  2. GPU アクセラレーションを構成する

  3. 遺伝子データベースを検索する

  4. 前処理の結果を入力として使用し、AlphaFold モデルをローカルで実行する

https://storage.googleapis.com/gweb-cloudblog-publish/images/image12_FkYn2hV.max-700x700.png

AlphaFold を使えば、1 時間強でアミノ酸配列からタンパク質の 3D 構造を生成できます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/image1_OpaJnIY.gif

Vertex AI Pipelines を使って多数の実験を確実に実行する

一方、タンパク質フォールディングの実験を週に複数回行うなど、AlphaFold のフルバージョンを実行する組織では、ML パイプライン オーケストレーターが必要となってくるでしょう。こうした大規模な実験には、AlphaFold バッチ推論ソリューションが役立ちます。このソリューションのコードサンプル一式では Vertex AI Pipelines を使用して、数百におよぶ同時推論パイプラインに高いスループットで対応しています。このソリューションでは、オーケストレーターおよびランタイムとして Vertex AI Pipelines を、メタデータおよびアーティファクトに Vertex ML Metadata を、データベースの管理に Cloud Filestore を使用しています。
https://storage.googleapis.com/gweb-cloudblog-publish/images/image10_6XHIw6V.max-1200x1200.png
クリックして拡大

Vertex AI Pipelines 上に構築されているため、ML ワークフローの相互依存部分を使って自動化、モニタリング、実験を行えるのが特徴です。推論にかかる時間が最小化されるため、通常では数日かかるような処理を数時間で実行できます。


このソリューションには、以下に示す 2 つのサンプル パイプラインが含まれています。


1. ユニバーサル パイプライン ソリューションは、DeepMind のオープンソースの推論スクリプトと同一のロジックを使用していますが、個別のタスクに分割することによって、同じ内容の実験をより高速かつ効率的に行えるほか、トラッキングもしやすくなっています。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/image11_6oURVHx.gif

2. カスタマイズ パイプライン ソリューションは、特徴量エンジニアリングのステップを同時に読み込むことで、推論ワークフローをさらに最適化する方法を示すものであり、独自のデータベース ソースを組み込む際に役立ちます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/image2_ljoBn2K.gif

サンプルのコンポーネント、パイプライン、ノートブックが揃っており、すぐに使用を開始して、分析したり、各種 GPU でパイプラインの再コンパイルを行ったりすることができます。

試しに使ってみたい場合には、AlphaFold Vertex AI Workbench ソリューションが適しています。一方、大規模なタンパク質フォールディングを実行する場合は、Vertex AI Pipelines を取り入れた AlphaFold バッチ推論ソリューションが向いています。このソリューションでは、堅固なプロセスを通じ、再現性やトラッキングの向上といった利点が得られます。

世界を救うために前進する

世界を救うというと少し大げさに聞こえるかもしれませんが、これは実に奮起を促されるできごとです。50 年来の課題があり、AlphaFold が発見されて Google Cloud 上で実行できるようになり、そして研究者や開発者、科学愛好家までさまざまな人が、医学会の極めて重要な進歩といえる成果にアクセスできるようになったのです。専門家でなくても、Vertex AI ノートブックを使って簡単に AlphaFold の簡易バージョンを使用できます。生命の謎の解明や、病気の治療法の発見に役立つ手段が、これほど身近になったことはかつてありません。皆様もぜひ、AlphaFold を Vertex AI で実行する無償ソリューションと、一般公開データセットを使って、世界的な取り組みの推進に加わりませんか。

Google Cloud の医療とライフ サイエンスのソリューションの詳細については、こちらをご覧ください。

この記事に関するフィードバックや経験談をお待ちしております。@stephr_wong までご連絡ください。

- デベロッパー アドボケイト Stephanie Wong

投稿先