コンテンツに移動
Healthcare & Life Sciences

Google Cloud 上の NVIDIA で単一細胞ゲノム分析を高速化

2021年9月8日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 8 月 25 日に、Google Cloud blog に投稿されたものの抄訳です。

この 10 年間、医療とライフ サイエンス業界はテクノロジーと科学の進歩による恩恵を受けてきました。新たな知見と可能性が毎日のように明らかになっています。クラウド コンピューティングのイノベーションを推進するという使命は、Google Cloud の DNA に刻み込まれています。私のチームは、Google Cloud を使用して科学的発見を加速する方法を紹介することに専念しています。たとえば、AlphaFold2 の最近の発表は、Google Cloud の活用により、プロテオミクスの分野における飛躍的進歩を促進する科学的な大発見を成し遂げた好例です。このブログでは、オミクスの別のユースケースである単一細胞解析と、その解析を Google Cloud の DataprocNVIDIA GPU で加速する方法をご紹介します。

科学的分析におけるパフォーマンスの必要性

遺伝子型と表現型の因果関係を理解できるようにすることは、生物学と医学における長年の課題のひとつです。実際の生命のコード(DNA)から遺伝子の発現(RNA)、有機体内のさまざまな経路、細胞、組織で機能するタンパク質への遺伝子転写物の翻訳まで、生体システムの複雑性を解明し知見を得る試みは多岐にわたります。DNA のわずかな変化でさえ、タンパク質の発現、構造、機能に大きく影響する可能性があり、最終的には細胞レベルと有機体レベルの両方で成長と反応を促進します。また、オミクス分野ではデータと計算の負荷がますます高くなっているため、適切な情報科学インフラストラクチャが研究に必要とされています。データ需要の増加に合わせてインフラストラクチャをスケールすると、リソースを大量に消費するさまざまな計算アクティビティが可能になり、価格が抑えられ効率が向上します。それにより、データのボトルネックが減り、研究者が分析情報を最大限に得られるようになります。

しかし、こうしたデータと計算上のあらゆる問題の原因はどこにあるのでしょうか?また、科学的研究が非常に困難な理由は何でしょうか?遺伝子そのものだけなく、遺伝子の発現にも着目すれば、すぐに生物の複雑性を構成するさまざまな層が見えてきます。人体のすべての細胞はほぼ同一の遺伝子型を共有していますが、多種多様な細胞型(たとえば、肝細胞とメラニン細胞)は、特定の機能に必要な遺伝子のユニークなサブセットを発現しています。これにより、研究者は遺伝子発現を観察可能な形質にマッピングできるため、トランスクリプトミクスはより強力な分析手法になります。研究によると、類似した細胞型であっても遺伝子発現は不均一です。しかし、従来の配列決定法では、細胞集団から抽出された DNA または RNA が必要です。単一細胞配列決定法の開発はオミクス分野にとってきわめて重要でした。単一細胞 RNA 配列決定法は、科学者が膨大な個々の細胞間のトランスクリプトームを研究できるようにするうえで欠かせないものとなっています。

単一細胞配列決定技術は可能性を秘めており、普及も進んでいるものの、いくつかの課題があります。高次元データの量が増え続けていること、さまざまなタイプの測定(遺伝的変異、転写産物、タンパク質発現、エピジェネティクスなど)の間や、サンプルや条件の間でデータを統合する必要があること、特定の細胞型または細胞状態をマッピングするために必要な解像度と精度にばらつきがあることなどです。このような課題は、背景ノイズ、補完を必要とする信号のドロップアウト、統計の柔軟性に欠ける限られたバイオインフォマティクス パイプラインをはじめ、さまざまな形で現れます。こうした課題により、分析ワークフローがとても遅くなり、差異的な遺伝子活性を検出するために必要な反復的かつ視覚的でインタラクティブな分析ができなくなります。

パフォーマンスの加速

クラウド コンピューティングはデータの課題だけでなく、分析のスケーラビリティ、パフォーマンス、自動化といった重大な課題にも有効です。単一細胞解析で直面するデータとインフラストラクチャに関する課題のいくつかに対処するために、NVIDIA はエンドツーエンドの高速化された単一細胞 RNA 配列決定ワークフローを開発しました。これは、Spark、Hadoop、RAPIDS などのオープンソース フレームワークを実行するフルマネージド サービスである Google Cloud Dataproc と組み合わせることができます。これらのワークフローを強化する Jupyter ノートブックには、人間の肺細胞やマウスの脳細胞などのサンプルを使用した例が含まれており、GPU ベースのワークフローと CPU ベースの処理を比較した高速化の結果が示されています。

Google Cloud Dataproc は NVIDIA GPU ベースのアプローチを強化し、データ処理機能と高速化を実現します。これにより、パフォーマンスが大幅に向上する可能性があります。RAPIDS と組み合わせると、NVIDIA GPU でデータ サイエンス パイプラインを高速化し、データの読み込み、処理、トレーニングなどの操作を数時間から数秒に短縮できます。RAPIDS は一般的な Python や Java ライブラリを基盤に簡単に構築することで、高速化されたデータ サイエンスの複雑さを解消します。RAPIDS と NVIDIA アクセラレーション コンピューティングを単一細胞ゲノミクスのユースケースに適用すると、わずか数分で 100 万個の細胞の分析を処理できます。

お試しください

オミクスの可能性を最大限に引き出すまでの長い道のりはまだ続きます。ですが、業界のエキスパート、お客様、NVIDIA などのパートナー様との協力を通じて、Google Cloud は行き先を照らすことができます。単一細胞ゲノム分析用に提供されているノートブックについて詳しくは、NVIDIA のチュートリアルをご覧ください。このパターンを Dataproc で試してみるには、技術リファレンス ガイドをご覧ください。

-Google Cloud カスタマー エンジニアリング リード ゲノミクス スペシャリスト Randi Cowin 博士

-NVIDIA RAPIDS AI データ サイエンティスト兼シニア ソフトウェア エンジニア Corey J. Nolet

投稿先