ソーク研究所で脳に関する研究に Google Cloud を活用、さらにクラウドへの移行も開始
Google Cloud Japan Team
※この投稿は米国時間 2023 年 2 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。
生物科学の研究では、データ処理量がますます増えています。ゲノム解読、遺伝子発現プロファイリング、高度な顕微鏡法、ビデオ イメージングといった高スループットの実験手法によって、日常的に膨大なデータセットが生成されるためです。こうしたデータセットは科学の飛躍的な進歩に貢献してきましたが、研究者にとっては、情報の保存、転送、処理を適切に続けることが大きな課題となっています。
従来型のコンピュータやスーパーコンピュータのコンピューティング リソースを研究に使用する場合、順番待ちが発生し、プロジェクトの進行が止まってしまうのです。これからの生物医学研究には、超高速プロセッサをオンデマンドで大規模に使用できる、クラウド コンピューティングの柔軟性の高いリソースが必要です。これを実現するため、これからの生物医学研究には、超高速プロセッサをオンデマンドで大規模に使用できる、クラウド コンピューティングの柔軟性の高いリソースが必要です。これを実現するには、IT プロフェッショナルと実験生物学者が緊密に連携し、科学的発見の促進のために協力して取り組む必要があります。
2022 年 5月、世界をリードする私立の非営利研究施設であるソーク研究所(カリフォルニア州ラホヤ)は、この新たな現実を前に、シングルセル エピジェネティクスの大量の配列データ処理を最適化するパイロット プログラムを Google Cloud と共同で立ち上げました。ソーク研究所に所属する教授であり、国立衛生研究所の BRAIN イニシアチブ細胞センサス ネットワーク(BICCN)プロジェクトのディレクターも務める Joseph Ecker 氏の研究室で始まったこのプロジェクトでは、同研究所のコンピューティング インフラストラクチャの変革とワークフローの改善をクラウド コンピューティングの導入により実現できるのか、また実現できるとすればどのような方法によるのかを見極めるテストが行われました。目標は、既存のデータ分析パイプラインをクラウドに適応させることでした。そのために、ソーク研究所の科学者に対して、独自のクラウド コンピューティング ソリューションを作成できるようにするトレーニングを重点的に行いました。
Ecker 教授のチームは、Google Cloud への移行により、複雑なシステムで各細胞のビッグデータ分析を管理する際に発生するボトルネックを解消したいと考えていました。Ecker 教授は次のように述べています。「この研究室では、罹病器官と健康な細胞の配列情報を使ってがん細胞や神経疾患の特徴を測定する研究などを通して、大量のオミクスデータを生成しています。すべてのデータを保存し、処理するだけでも大仕事です。ある実験では、数千個の細胞を分析する必要があるのですが、その細胞一つひとつに、ゲノム全体にマッピングされたシーケンシング リードが 100 万〜200 万個あります。そうした配列に含まれる膨大な数のシトシン(メチル化シトシンを含む)の状態を個別に検出しています。これにより、テラバイト単位のデータが生成されますが、実験は当然 1 回だけではありません。さらに、すべてのデータはバックアップを取り、保持する必要があります。ですから、より優れたソリューションを必要としていたのです。」
Ecker 教授の研究室では、このパイロット プロジェクトのためにマウスの脳細胞を分析し、DNA のマーカーを使用して完全な脳機能マップを作成しました。生シーケンシング データは合計で数百テラバイトに達することがありました。また、各細胞を他の細胞との関連で位置付けて、理解することも必要でした。Ecker 教授の研究室で博士研究員として研究に取り組む Hanqing Liu 氏は、Google の仮想マシン(VM)を使用して複数のバッチジョブを処理するために、ワークフローをどのように自動化したか話してくれました。「バッチジョブを Google Cloud に定期的に送信するようパイプラインを設定しました。実行されたバッチジョブは、長期間保存用ストレージと Google Cloud Storage に自動的に移動されます。」
結果は大成功でした。マウスの脳全体を分子レベルでマッピングすることに初めて成功したのです。さらに、コンピューティング費用も、当初の見積りより 20% 低く抑えることができました。さらに、「プリエンプティブル VM の使用が大幅な効率アップにつながり、スケーラビリティと安定性を実現できました」という Liu 氏の言葉に、Ecker 教授は次のように付け加えました。「クラウドへの移行を実地でサポートしてくれる IT チームを探していましたが、今では、パイプラインの実行を自分たちで問題なく行っています。」
Ecker 教授は次のように述べています。「当初の目標は、マウスの脳をモデルとして使用することで、脳内の細胞の多様性を明らかにし、それらの細胞がどのように制御されているのかを詳しく調べることでした。これを行えるツールを構築できたので、次は霊長類やヒトの脳の研究に取り組めます。」
パイロット プロジェクトに続いて、Ecker 教授と共同研究者のチームは、ヒトの脳の分子マップをエピゲノム ベースで作成するために 5 年間 1 億 2,600 万ドルの NIH 助成金を獲得しました。このプロジェクトのデータ量は、マウスの脳のプロジェクトの 20 倍に上ります。Ecker 教授は次のように続けています。「自分たちでデータを管理できることを証明しました。このパイロット プロジェクトにより、この方法がこれからの科学研究のやり方であることが実証されました」。ソーク研究所で上級バイス プレジデント兼最高科学責任者を務める Gerald Joyce 氏は、同研究所の収穫を大局的な見地から述べています。「このプロジェクトを通じて、IT と研究を対等に扱うことの必要性を学びました。IT エンジニアや技術者と私たち科学者がお互いに協力して取り組むことが必要なのです。要するに、IT エンジニアや技術者と科学者の両方が研究室にいる必要があるということです。」
パイロット プロジェクトの成功を受け、ソーク研究所の他の研究室でも、データ量の多いプロジェクトを Google Cloud に移行する取り組みが始まっています。Joyce 氏は次のように述べています。「ソーク研究所の科学者たちは、機械学習を使用してミミズ、ハエ、マウスの動きを記録した膨大なデータのトラッキングと分析を行っています。こうしたデータは、動きや複雑な社会的行動の元となる神経回路に関する新たな知見の獲得につながっています。現在、細胞を原子分解能で 3D 化するために取り組んでいます」。同研究所は、この他にも、Eiman Azim 准教授のヒトの運動に関するバイオメカニクス研究や、気候変動による植物成長の変化をマッピングする Joanne Chory 教授の研究など、影響の大きなプロジェクトに取り組んでいます。
ソーク研究所では、こうした研究活動を加速するために、2,300 万ドルを投資して 5 年間かけて組織をクラウド インフラストラクチャーに移行させる取り組みが始まっています。この取り組みにより、優秀な人材を確保できるうえ、多額の助成金を獲得し続けることができます。また、データアクセスの一元化を通じてグローバル パートナーと共同作業を行ったり、巨大なデータセットを必要とする研究の増大に対応したりすることも可能になります。Joyce 氏は次のように述べています。「すぐにでも、データの洪水に溺れかねない状況です。データが増えたからといって、得られる科学的知見が自動的に増えるわけではありません。前提として、データ マイニングを効率的に行える必要があります。ソーク研究所では、コンピューティング能力に有意義な投資を行うことで、研究者たちがこうしたさまざまなデータセットを活用して前人未踏の科学的課題に取り組み、まったく新しい科学研究分野を開拓できるよう取り組んでいます。」
- Google Cloud、リサーチ マーケティング マネージャー、Nicole DeSantis