コンテンツに移動
AI & 機械学習

分子の世界に AI の革命を - SyntheticGestalt が目指す新しい発明の形

2024年10月25日
https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_794SX18.max-2000x2000.jpg
Koki Shimada

CEO at SyntheticGestalt

人類の文明の発展の歴史は、発明の歴史といえます。顕微鏡の発明でミクロの世界の探索ができるようになる。新しい治療薬の発明により治せなかった病気が治せるようになる。新しいアルゴリズムの発明により難しい予測ができるようになる。こうした発明により、人類は今までできなかったことができるようになり、文明が発展していったと私は考えています。SyntheticGestalt は、このような発明を人間の研究者だけでなく、AI システム自体が新しい発明を量産していく未来を創造しようとしています。

現在の AI 技術の適用可能性、そして社会からの需要の高さから、我々は新しい分子の発明に注力しています。新しい治療薬、新しい素材、新しい化粧品や農薬、こうした製品は、人々の暮らしに直接的に影響を与える一方で、すべて分子でできています。新しい分子を AI によって発明させることができれば、その暮らしは劇的に変わるでしょう。近年、画像やテキスト、そして音声といった生成 AI が注目を集めていますが、我々は AI による分子の発明の実現を目指して研究開発を行っています。

画像やテキストの生成 AI 技術の発展には、大規模データで事前学習させた基盤モデルの存在が大きく寄与しています。これらのモデルは、何兆もの単語 (トークン) や何億件もの画像を学習することで、データの本質的な情報構造を理解します。例えば、GPT-4 や Gemini などの大規模言語モデルは膨大なテキストデータを、画像生成モデルの DALL-E や Stable Diffusion も大量の画像データを基に開発されました。このような基盤モデルを土台として機械学習モデルを開発することで、より高精度で柔軟性のある AI システムが実現されてきました。しかし、その開発は、画像やテキスト、音声といったエリアで活発に行われていますが、分子の領域では決定打となる基盤モデルがまだありません。そこで当社は、他領域における AI 開発の成功をこの分子領域にも持ち込むことを企図して、分子の情報に特化したモデルの開発に注力することにしたのです。

実際、分子の分析や設計を目的とした AI の開発は非常に盛んです。新しい医薬品や農薬、化粧品といった分子を評価するためには、コンピューター上だけではなくラボでの実験が必要になりますが、そのためには多くの時間とコストがかかります。AI を使ってこれらの実験結果を予測することができれば、成功の期待できる分子をより多く実験に進めることができ、実験の効率化や成功確度の向上が期待できます。そのため、多くの企業や研究機関が高精度なAIの開発に取り組んでいるのです。しかし、こうした開発の多くは期待通りの結果を得られていないのが実情です。AI 創薬という試みも実践されて久しいですが、未だに AI によって発見された化合物で既存薬を上回る効能を示したものはありません。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_fZiMenZ.max-1700x1700.png

タンパク質に対してリガンド分子が結合している様子
疾患の原因となる標的タンパク質に対して阻害作用を持つ化合物を AI によって探索している

実験結果を予測する機械学習モデルを開発するためには多くの学習データが必要になりますが、その獲得のためには実験をしなければなりません。しかし、上記の通りコストと時間がかかるため、学習に利用できるデータがそもそも少なすぎるのです。そのため、十分な汎化性能を得ることができず、学習時と異なる構造を持つ化合物に対してモデルを適用しようとすれば、途端に予測が外れてしまうという結果になってしまいます。加えて、分子の情報構造は非常に複雑です。分子は立体構造を持ち、それは動的に変化していきます。そのため、ある分子をテキストや静的なグラフ構造で表現しようとしても、分子情報を正確にモデルに解釈させることが困難です。だからといって変化しうる立体構造を機械学習モデルに入力しようとすれば、モデル開発について専門的な知見が必要になり、その開発の難易度が急激に上がってしまいます。

こうした課題を解決するために、我々は分子情報に特化した大規模な基盤モデルを開発しています。我々の共同研究のパートナーである Enamine Ltd. (ウクライナ) から約 400 億件の化合物情報をいただき、そのうちの 100 億件を学習データとしています。これらは合成が容易で実際的に創薬の現場で使われうる化合物です。そして、各分子につき複数の立体構造をシミュレーションし、それぞれの構造について点電荷や表面電位を導出しています。この非常に複雑な特徴量を入力情報として大規模な基盤モデルを開発しています。この基盤モデルをベースにさまざまな AI モデルを開発すれば、それは複雑な立体構造情報を加味したモデルになりますし、大量の分子情報を学習済みであるため、完全に新規の化合物に対しても、基盤モデルを使わない場合に比して高い精度で予測ができることが期待できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image3_roIow2n.max-1000x1000.png

同一化合物から複数の立体配座を生成し、それぞれについて表面電位を計算した図
これを 100 億件の化合物について実施し、学習データとしている

この壮大なプロジェクトは、日本の経済産業省が提供する GENIAC のプログラムの支援を受けています。膨大な分子データの学習には大量の GPU 演算が必要であること、またその GPU を乗せるインフラとしては柔軟性や開発の容易性、コスト最適化、耐障害性が欠かせないことなどから、Google の GPU および Google Cloud を活用いたします。また、今後開発の過程で得られる 1 億件のデータで学習したモデルやモデル評価のために取得した実験情報は無償で公開する予定であり、Google Cloud Marketplace を通じて提供予定です。当社はこの世界最大の分子情報に特化した基盤モデルにより、今後人類が開発する分子のための AI モデル、例えば新薬を探索する AI や新しい素材を開発する AI の精度を底上げすることを目指しています。AI による発明を現実のものとし、AI が人々の暮らしに直結する形で役立つことを我々は示していきたいと考えています。

投稿先