コンテンツに移動
デベロッパー

米国国立がん研究所 Imaging Data Commons の公開画像データセットでがん研究を推進

2023年2月14日
Google Cloud Japan Team

Google Cloud 一般公開データセット プログラムにより提供されている米国国立がん研究所 Imaging Data Commons のデータを使ってみましょう。

※この投稿は米国時間 2023 年 2 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。


医療用画像は、がんに対する理解を深め、がんを発見するための新しい非侵襲的な方法を発見し、患者の治療全体を向上させるための研究において、素晴らしい機会を提供します。特に人工知能(AI)の進歩は、この画像データをがん研究の一環として活用できるようにするための重要な鍵となっています。ただし、AI を活用した研究手法を開発するには、大量の高品質な画像データを入手する必要があります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Sample_images_from_NCI_Imaging_Data_Common.max-1500x1500.png
NCI Imaging Data Commons のサンプル画像。左: 前立腺の磁気共鳴画像(MRI)(入手先: http://doi.org/10.7937/K9/TCIA.2018.MR1CKGND)、前立腺と下部構造の注釈付き。右: 黒色腫の高多重蛍光免疫染色による組織イメージング(入手先: https://humantumoratlas.org/hta7/)。

米国国立がん研究所(NCI)は長年にわたり、包括的で一般に利用可能ながん画像データセットの収集、キュレーション、普及を優先的に行ってきました。Cancer Genome Atlas(TCGA)Human Tumor Atlas Network(HTAN)などのイニシアチブ(これはほんの一例です)では、AI の基礎を学ぶ学生、商用 AI 製品を開発するエンジニア、画像分析の革新的な提案を行う研究者、そしてもちろん、それらの提案を評価する資金提供者など、専門知識の提供に関心のある誰もが、堅牢で標準化されたデータセットに簡単にアクセスできるように取り組んでいます。

ただし、画像データの共有や分析を複雑にしている課題も残っています。

  • データはさまざまなリポジトリに分散しています。つまり、データをまとめるために、またはツール(クラウドベースのリソースなど)の範囲内でデータを複製する必要があります。
  • 画像は、ベンダー固有のフォーマットや特殊な研究用フォーマットで保存されていることが多く、分析ワークフローを複雑化し、メンテナンス コストを増大させる要因となっています。
  • 共通のデータモデルやツールがないため、データの検索、可視化、分析などの機能は難しく、各リポジトリやデータセット独自のものを使用しなければなりません。
  • 研究において重要な機能である分析ワークフローの再現性を実現することは困難であり、実際には不十分な場合が多くあります。

Imaging Data Commons の概要

これらの問題に対処するため、NCI は、全国的ながん研究エコシステムを確立する Cancer Research Data Commons(CRDC)イニシアチブの一環として、Imaging Data Commons(IDC)を立ち上げました。これは、一般に利用可能ながん画像データのクラウドベースのリポジトリであり、次のような重要なメリットがあります。

コロケーション: 画像ファイルは Google Cloud Storage バケットにキュレートされ、オンデマンドの計算リソースやクラウドベースのツールと連携し、より簡単かつ迅速にアクセスして分析できるようになります。

フォーマット: 画像、注釈、分析結果を標準の DICOM(Data Imaging and Communications and Medicine)フォーマットに統一することで、ツールとの相互運用性を高め、均一な処理パイプラインをサポートします。

ツール: IDC は、ダウンロードすることなく、データの探索や検索、画像や注釈の可視化を可能にするツールを備えています。Vertex AIColab など、Google Cloud で利用可能なクラウドベースのツールから IDC データに簡単にアクセスできるほか、高度に構成可能な仮想環境に独自のツールをデプロイできます。

再現性: 再現性のある分析ワークフローの共有は、バージョン管理された永続的なデータの維持によって効率化されます。このデータ使用して、アルゴリズムのトレーニングや検証に使用するコホートを正確に定義し、それを一貫したソフトウェア構成とハードウェア構成を提供できる仮想環境にデプロイできます。

IDC は、画像の種類やスケール、がんの種類、製造業者など、多岐にわたり増え続けるリポジトリとイニシアチブのリストから、匿名化されたデータを取り込み、調整します。これらの画像の大部分には、注釈と臨床データが付随しています。

IDC で利用できる機能の概要については、IDC ポータルや、こちらの Looker Studio のダッシュボードをご覧ください。

IDC データの探索

IDC ポータル

データの探索を始めるには、IDC ポータルが便利です。このブラウザ内のポータルから、いくつかの主要なメタデータ属性を使用して画像を操作し、可視化できます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2023-01-20_17-59-03.gif
IDC ポータルを操作してデータセットの画像を表示する

例として、肺がん患者のスライド顕微鏡画像を探す手順をご紹介します。

  1. IDC ポータルから、[Explore images] に進みます。
  2. 探索画面の右上部にある要約円グラフを使用して、胸部の原発部位を選択します(代わりにを選択することもできますが、がんの部位の注釈には別の用語が使用されることがあります)。
  3. 同じ円グラフの [summary] セクションで、[Modality] に移動し、[Slide Microscopy] を選択します。
  4. 右側のパネルで [Collections] セクションまでスクロールすると、関連する画像を含むすべてのコレクションが一覧表示されます。そして、チェックボックスを使用して 1 つ以上のコレクションを選択します。
  5. その下の [Selected Cases] セクションに移動すると、選択したコレクションのうちの検索条件を満たす患者のリストが表示されます。
  6. 次に、チェックボックスを使用して特定の患者を選択します。すぐ下の [Selected Studies] セクションに移動すると、研究のリストが表示されます。これらは、この患者に実施できる特定の画像検査とお考えください。  右端にある「目」のアイコンをクリックするとビューアが開き、画像そのものを表示できます。

BigQuery 一般公開データセット

分析をより正確にサポートするために必要なデータのサブセット(またはコホート)を検索して選択する場合は、BigQuery の一般公開データセットに移動します。このデータセットには、(IDC ポータルに含まれるサブセットに加えて)IDC 画像で利用可能なメタデータの包括的なセットが含まれており、これを使用して、カスタムの標準 SQL クエリでターゲット データのサブセットを正確に定義できます。

これらのクエリは、BigQuery サンドボックスを作成することで、ブラウザ内の BigQuery コンソールから実行できます。BigQuery サンドボックスを使用する場合、Google Cloud の無料枠の範囲内で、データに対してクエリを実行できます(クレジット カードは不要です)。課金を有効にして無料枠の基準を超えて使用した場合は、BigQuery の料金が適用されます。ただし、ほとんどの研究者のニーズは無料枠の範囲内に収まると思われます。

探索クエリを開始するには、IDC ポータルの探索で使用したのと同じ条件に対応する研究を選択します。

lang-sql
読み込んでいます...

これで、正確に定義されたコホートを作成するためのクエリを記述する準備が整いました。ここで、デジタル病理画像の探索から、特定の条件を満たすコンピュータ断層撮影(CT)スキャンのサブセット化に移行します。

次のクエリでは、gcs_url 列の一意のストレージパスで識別され、SliceThickness が 0~1 mm の CT シリーズに対応するすべてのファイルを選択します。また、series_viewer_url において、IDC ポータルのビューアでシリーズを可視化するための URL も作成します。この例では、結果は 1 つのシリーズのみに限定されています。

lang-sql
読み込んでいます...

より複雑なクエリを作成するようになると、DICOM 形式と、それがどのように IDC データセットと結びついているかを理解することが重要になります。詳細を学ぶには、こちらの開始チュートリアルが最適です。

これらのクエリの結果として、次のようなことができます。

  • 上述の 2 番目のクエリで示したように、IDC ポータルのビューアを開いて個々の研究を調べるために URL を構築できます。
  • 画像に付随する注釈や臨床データを調べることで、この検索条件を満たす患者や研究についての詳細を把握できます。開始チュートリアルでは、このようなクエリの例をいくつか紹介しています。
  • 画像コレクションを記述する DICOM メタデータを、関連する臨床情報とリンクできます(臨床情報が利用可能な場合)。こちらのノートブックは、IDC コレクションで利用可能な臨床データをナビゲートする際に役立ちます。
  • 最後に、検索結果の研究に含まれるすべての画像をダウンロードできます。Google Cloud 一般公開データセット プログラムのサポートにより、IDC の画像ファイルを Cloud Storage から無償でダウンロードできます。

他のクラウドツールとの統合

IDC データの探索に役立ついくつかのクラウドツールをご紹介したいと思います。

  • Colab: Colab は、テキストとコードを組み合わせたノートブックを作成、共有し、IDC から画像をダウンロードして、クラウド上で無償の仮想マシンを使ってコードを実行できるホスト型 Jupyter ノートブック ソリューションです。無料枠から拡張してカスタム VM や GPU を利用できる一方、月額固定料金プランでコストを抑えることが可能です。ノートブックは同僚(学術論文の読者など)と簡単に共有できます。まずはこちらの Colab ノートブックのサンプルをご確認ください。
  • Vertex AI: Vertex AI は、ML ワークフローのすべてのステップを処理するためのプラットフォームです。ここでもまた、マネージド Jupyter ノートブックが含まれていますが、使用する環境やハードウェアをより細かくコントロールできます。Google Cloud の一部としてエンタープライズ レベルのセキュリティも付属しており、特に独自の専有データを結合している場合には、ユースケースにとって重要な意味を持つかもしれません。Vertex AI Experiments 機能により、アーキテクチャ、ハイパーパラメータ、トレーニング環境を自動的に追跡し、最適な ML モデルをより迅速に検出できます。
  • Looker Studio: Looker Studio は、インタラクティブなカスタム ダッシュボードを開発、共有するためのプラットフォームです。画像に付随するメタデータの特定のサブセットに焦点を当てたダッシュボードを作成でき、SQL クエリよりもインタラクティブなインターフェースを好むユーザー向けです。例として、こちらのダッシュボードは IDC データの概要を提供しており、こちらのダッシュボードでは、IDC 内の前臨床データセットに焦点を当てています。
  • Cloud Healthcare API: IDC は、BigQuery による DICOM メタデータの抽出と管理、および標準 DICOMweb インターフェース経由で IDC データを利用可能にする DICOM ストアの維持に、Cloud Healthcare API を利用しています。IDC ユーザーは、これらのツールを利用して、IDC 画像の分析から得られたアーティファクトを保存し、アクセスできるようにすることが可能です。例として、DICOM ストアに画像セグメンテーションの結果を入力し、Firebase でホストされており、ユーザーがデプロイした OHIF ビューアのインスタンスを使用して視覚化できます(デプロイ手順はこちらから確認できます)。

次のステップ

IDC データセットは、がんの予防、治療、診断におけるデータドリブンな研究と科学的発見を加速させる強力なツールです。研究者、エンジニア、学生を問わず、この投稿で説明した利用開始ステップに沿って使ってみることをおすすめします。IDC ポータルにアクセスしてデータに慣れ、BigQuery 一般公開データセットを使ってコホートを調整し、画像をダウンロードしてオンプレミス ツール、Google Cloud サービス、Colab で分析してみましょう。リソースに慣れるには、まず IDC ノートブック シリーズを使い始めることが有効です。

質問がある場合は、IDC チーム(support@canceridc.dev)までご連絡いただくか、IDC コミュニティに参加して質問を投稿してください。公式ドキュメントなどの詳細については、IDC ユーザーガイドを参照してください。



- ハーバード大学医学部 Brigham and Women’s 病院放射線科准教授 Andrey Fedorov 博士
- デベロッパー アドボケイト Alicia Williams

投稿先