研究の次なるレボリューション - ライフサイエンスのデータユニバースから速やかに解を導き出す

Google Cloud Japan Team
※この投稿は米国時間 2023 年 3 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。
1,000 ピースのジグソーパズルを組み立てたことはありますか?パズルのイメージが見えてきたときにゾクゾクするような期待や、最後のピースをはめ込んだときに爽快感を感じたことでしょう。では、1,000 ピースのパズルが何千セットもある状況を想像してみてください。誰かがそのすべてのピースを 1 つの大きな箱に投げ込んだうえに、完成図が描かれた外箱の蓋も捨ててしまいました。しかも、そのパズルの中には、命を救うための鍵が含まれています。
これが、医療やライフサイエンスの研究者が抱えている大きなジレンマです。確かに医療に関するデータも、そのデータを収集する方法も数多く存在します。しかし、状況を改善するに足るスピード感でデータを整理し、答えを導き出すことは、とてつもなく困難なことです。
Google Cloud では、安全に大量のデータをまとめ、その意味を理解し、そこから価値を引き出すことがいかに難しいかを身をもって知っています。そこで Google は、クラウド コンピューティング、データ、医療に関する経験と専門知識を結集し、さまざまな組織がデータ プライバシーを優先しながら、医療における困難な問題を解決できるよう支援しています。私たちは日々、医療データから人生を変えるような情報が得られることを期待し、バラバラなデータソースを集約させることで人命を救えるような解が導かれる様子を目の当たりにして、お客様とともに喜びを感じています。
今回こうした趣旨から、ALS Therapy Development Institute(ALS TDI)の CEO 兼最高科学責任者である Fernando Vieirato 氏をお招きして、この組織のストーリーを語ってもらいました。ALS TDI は、筋萎縮性側索硬化症(ALS)の効果的な治療法の発見と開発に取り組む唯一の非営利研究組織です。ALS TDI の目標は、この恐ろしく複雑で死に至る病の解明に貢献し、商業パートナーが臨床試験を進めることができる ALS 治療法を発見、考案することです。ALS TDI はすでに Tegoprubart という 1 つの薬剤を発明し、ALS における第 II 相試験を完了しており、さらに多くの薬剤の開発を計画しています。— Google Cloud、ライフ サイエンス業界ソリューション担当ディレクター、Shweta Maniar
筋萎縮性側索硬化症(ALS)は、運動ニューロン疾患(MND)、ルーゲーリッグ病、シャルコー病とも呼ばれ、人の運動能力を奪う病気です。
ALS の症状はほとんどの患者に共通しています。脳の上位運動ニューロンと脊髄の下位運動ニューロンが変性、死滅することで、筋肉がどう動くのかがわからなくなり、徐々に全身が麻痺していきます。しかし、その進行具合は千差万別です。たとえば、私の親友は ALS の診断から 9 か月後に亡くなりましたが、ALS TDI の理事長はこの病気を患って 17 年以上になります。


ALS は、その基礎となる生物学的性質や病態が非常に多様であるため、その原因を理解し、治療法が病気の進行にどのように影響するかを集団レベルで測定することは困難です。ALS 全体の 10% の症例を占める症例に関連するいくつかの遺伝子が特定されています。しかし、それらの遺伝子の働きは多様であり、運動ニューロンの変性にはさまざまなパターンがあることを物語っています。
実際には、ALS はおそらく単一の病気ではなく、関連する病気の集合体なのです。そのため、すべての人のニーズに完全に対応できる 1 つの治療法というものは存在しないでしょう。ある治療法はすべての人に多少なり役立つかもしれませんし、ある治療法はごく一部の人に大きく役立つかもしれません。このため、効果的な治療法を見つけるだけでなく、その治療法から最も恩恵を受けることができる患者のグループを特定することも非常に重要です。
ALS 患者から ALS について学ぶ
このような複雑な病気を克服するためには、ALS TDI を含む ALS 分野で、ALS 患者からできるだけ多くのデータを収集し、病気について学ぶ必要があるということがわかっています。
多くのプログラムで全ゲノム配列の解読が行われていましたが、ALS の進行に関する情報は収集されていませんでした。ALS 患者から採取した人工多能性幹細胞を用いた細胞生物学研究では、研究結果を全ゲノム配列決定や臨床的進行と関連付けていません。他の研究では、居住地や職業、食事や運動習慣などのリスク要因について確認していましたが、それらの要因と最終的に患者が発症する ALS のタイプと紐づけはしていませんでした。




2014 年、ALS TDI は、こうしたデータのサイロ化を解消することを目的に、加速度計測定や音声記録など、ALS 患者から直接データを取得する革新的な方法を実装した「プレシジョン メディシン プログラム(PMP)」という「患者に直接アプローチする」プログラムを開始しました。
私たちのプログラムは、現在この種のプログラムの中で最も長く続いており、非常に包括的なものになっています。過去 8 年間で、約 850 人の ALS 患者から 30 テラバイト以上の厳選されたデータを収集しました。
ビッグデータ分析の課題
参加者の時間や貢献したい気持ちは非常に大切なものです。そのため最初のソリューションでは、可能な限りあらゆる方法でデータを取得することが最大の目標になりました。どう分析するかは、後で考えることにしたのです。
大量のデータを収集したら、そのデータがどのような疑問への回答に役立つかを確認したいと考えました。
当初のシステムは、良いものではあっても、最高のものではありませんでした。データについて質問があるときは、ウェブ開発チームや IT チームに説明し、クエリを作成してもらう必要がありました。残念ながら、私は IT の観点から話ができず、一方、彼らは生物学について詳しく知っているわけではないので、私の質問に対して回答にならない答えが返ってくるのです。このやりとりは総じて時間もかかるし面倒なものでした。
しかも、聞きたいことを全部聞けるわけでもありませんでした。ALS の研究者はほぼ毎日 PubMed を参照し、たとえば、新しいタンパク質、遺伝子、バイオマーカーを示す情報や、特定の血液特性と ALS の進行の相関を明らかにするものなどを求め、(1 日に 5~7 件の割合で公開されている)新しい論文を探しています。
オンサイトのサーバー内に眠っている、知られざる可能性を引き出せずにいました。私たちは、社内の科学者だけでなく、より大きな研究コミュニティのためにも、データセットについて簡単に質問できるようにする必要がありました。
ALS TDI では、私たちのデータセットがそのような論文の結論を裏付けるものかどうかを確認したいと考えました。もしそうであれば、次のステップで、特定の患者のための新薬につながる新しい治療ターゲットや介入タイミングの可能性を見極めるために、さらなる問いを投げかけたいと考えました。たとえば、「プレシジョン メディシン プログラム(PMP)の参加者で、この論文で特定されたタンパク質に変化が見られる人はいるのか?その場合は、その患者の病状はどのようなものか?」といった質問です。
これに答えることが夢だったのですが、今までのシステムでは無理でした。
オンサイトのサーバー内に眠っている、知られざる可能性を引き出せずにいました。優れたアイデアや頭脳は、ALS TDI 以外にも存在するので、社内の科学者だけでなく、より大きな研究コミュニティに対しても、データセットについて簡単に質問できるようにする必要がありました。
クラウド コンピューティングを利用してデータの価値を引き出す
私たちは、データの安全性、システムの拡張性、アクセスの容易さ(全国的にも世界的にも)を兼ね備えた方法として、クラウド コンピューティングが最適であると判断しました。Google Cloud チームとの連携は理にかなっていたのです。Google はテクノロジーを売り込んで後は私たちに任せっきりにするのではなく、「ツールを用意し、それを理解できるようサポートします。さらに、信頼できる他の有用なパートナーにもご紹介します」と言ってくれたのです。
最初に行ったのは、すべてのデータを保存する中心的な場所であるデータレイクを作成することでした。次に、「ブロンズ」、「シルバー」というレイヤーを作成し、可視化ツールに簡単に接続できるようにデータをフォーマットしました。インタラクティブなダッシュボードを作成できることが、導入検討の際の決め手となりました。
Looker を使用してプレゼンテーション レイヤーを構築することで、デベロッパーにクエリを作成してもらうことなく、研究者がデータについて質問できるようになりました。自らクエリを実行し、その結果を瞬時にグラフで確認できるようになったので、何時間も、何日も待たされる必要がなくなりました。
ALS TDI のデベロッパーは、Google Cloud とそのパートナーである Quantiphi と協力して、データ分析プラットフォームの初期フレームワークを作成し、残りのツールを自分たちで構築する方法を社内のデベロッパーと科学者に教えました。この新しいプラットフォームは、「ALS Research Collaborative Data Commons」(ARC Data Commons)と名付けられ、一般に公開できるようになりました。
記録的なスピードで大きな成果を得る
今はまだベータ版テストの段階ですが、社内の科学者たちにとって、このソリューションはすでに思い描いていた通りに機能しています。いろいろなことを素早く行え、誰もが驚いています。
学術、非営利、営利の各分野のパートナー候補は、これほど多くの ALS 患者が貢献してくれていること、生物学者が Python や JSON でコードを記述せずにこの大規模なデータベースに対してクエリできることに、驚嘆しています。実際のデータに対して素早く仮説を検証し、その結果から十分な自信を得たうえで、次の研究を考案することが可能です。
たとえば、ある製薬会社のパートナー候補から「ALS に関与する遺伝子をターゲットにした薬がある」と最近連絡がありましたが、その遺伝子は非常に珍しいもので、それまで誰も真剣に取り上げようとはしませんでした。メールを受け取ってから 5 分以内に、ARC Data Commons の遺伝子ダッシュボードを開くと、その遺伝子と、その遺伝子に多型や変異を持つプログラム参加者全員を発見することができました。


このプラットフォームを使用して、進行タイプをプロットし、データベースに「細胞を入手できているか?」と尋ねることができました。研究室での実験に使うための線維芽細胞や人工多能性幹細胞を 2 人の参加者から得ることができると知った私は、「こちらでお手伝いできることがあります」と返信しました。この一連の作業にかかった時間は 15 分です。1 年半前なら、挑戦すらしなかったはずです。
私たちの研究プログラムの大きな特徴は、参加者をパートナーとして扱うことです。また、ALS 患者の方々は、突然変異を保因している、あるいはニュースで見聞きしたなど、ご自身で特定の遺伝子に興味を持っているケースがあります。いずれは、これらのデータを PMP 参加者にも提供したいと考えていますが、ベータ版の間に数名にデモをすることができました。特定の遺伝子変異を持つ患者グループに関する質問に、いかに早く答えられるかを示せたことは、私にとっても患者にとっても、とても満足のいくものでした。
ALS 研究を前進させる画期的なツール
この記事の執筆時点では、ARC Data Commons はまだイテレーションの段階です。新しいユースケースを発見するたびに、それを ALS TDI のウェブ開発チームに送ります。チームは、これまでデータの抽出に費やしていた時間を使って、この先も継続的に利用できる新しいボタンやフィルタを作成しています。
またこの新しいツールは、臨床運用チームの時間短縮にも役立っています。たとえば、サンプル提供のために、採血医を患者の家に派遣するロジスティクスが簡素化されます。さらに、このソリューションは迅速かつコスト効率よくスケーリングできるため、これらのサンプルから得られた新しいデータ型(大規模プロテオミクス研究による 7,000 種類のタンパク質や大規模トランスクリプトーム研究による 3 万個の RNA 分子の測定値など)を統合し、患者のメタデータや生物学的経路に関する知識に結びつけることを計画しています。
この一連の作業にかかった時間は 15 分です。1 年半前なら、挑戦すらしなかったでしょう。
2023 年の目標は、研究者、学者、産業界のパートナーにデータへのアクセスを呼びかけ、ARC Data Commons を世に出すことです。次のステップは、Google Cloud の力を借りて、AI と ML モデルを適用し、人間の頭や目ではできない方法でデータを振り分けて、新しい知見を見出すことです。
スケールアップ: データが増えれば、より多くの知見が得られる
データを他のデータセットとクロス分析することで、さらに重要な知見が得られる可能性があります。ALS は他の神経変性疾患と混同されるほど異質な疾患です。実際、神経変性疾患のベン図には、多くの重複が含まれています。たとえば、ALS の家族性症例の研究では、同じ家族で同じ遺伝子に変異があると、脳の前面にある神経細胞が傷つき、前頭側頭変性症として現れ、アルツハイマー病のような挙動を示す場合があることがわかっています。
ALS と前頭側頭型認知症、アルツハイマー病、パーキンソン病、ハンチントン病などの疾患を比較することで、多くを学べる可能性が高いため、多くのデータレイクを接続することが理想的です。さまざまな疾患や、そのような症状を持つ人々のグループ全体に効果をあらわす治療法を見つけることができるかもしれません。
私たちのプレシジョン メディシン プログラムの考え方は「作れば集まる」でした。つまり、私たちがこのソリューションを構築すれば、人々が集まりデータを共有するようになります。データを共有できるようになったことで、より多くの人がデータを共有するために訪れてくれて、より多くの研究者と、より多くのデータを共有できるようになり、より多くの患者が共有するようになる、という好循環を生み出したいと考えています。
これまで質問しようとさえ思わなかったことに対する答えを素早く見つけられるようになったことはすでに確認しましたが、これはまだスタートにすぎません。すべての ALS 患者が効果的な治療を受けられるようになるまで、私たちは前進し続ける決意です。
- Google Cloud、ライフ サイエンス業界ソリューション担当ディレクター、Shweta Maniar
- ALS TDI、CEO 兼最高科学責任者、Fernando Vieira


