NIH 胸部 X 線データセット

NIH 胸部 X 線データセットには、匿名化された胸部 X 線画像が 100,000 個含まれています。これらの X 線画像の形式は PNG です。

このデータは、NIH クリニカルセンターから提供されており、NIH ダウンロードサイト（https://nihcc.app.box.com/v/ChestXray-NIHCC）を通じて入手できます。

Google Cloud のデータアクセスで説明されているように、Google Cloud を介してデータにアクセスすることもできます。

ライセンスと帰属

NIH 胸部 X 線画像の使用に関する制限はありません。ただし、データセットには以下のような帰属に関する要件があります。

NIH ダウンロードサイトのリンク（https://nihcc.app.box.com/v/ChestXray-NIHCC）を提供します。
CVPR 2017 論文の引用を含めます。

Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017
NIH Clinical Center がデータプロバイダであることを認めます。

Google Cloud のデータアクセス

NIH 胸部 X 線画像は、Cloud Storage および BigQuery から取得できます。また、Cloud Healthcare API を使用して取得することもできます。

Cloud Storage

NIH 胸部 X 線データは、次の Cloud Storage バケットで入手できます。

gs://gcs-public-data--healthcare-nih-chest-xray

Cloud Storage の NIH 胸部 X 線データセットに移動

バケットには、元の PNG ファイルのほかに DICOM インスタンスへのパスも含まれます。

PNG（NIH 提供）:

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM（Google 提供）:

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Cloud Storage バケットでは、請求で「リクエスト元による支払い」モデルが使用されます。NIH データへのアクセスに関連する料金は、Google Cloud プロジェクトに課金されます。詳しくは、リクエスト元による支払いをご覧ください。

BigQuery

NIH 胸部 X 線データは、BigQuery の chc-nih-chest-xray Google Cloud プロジェクトで入手できます。

BigQuery の NIH 胸部 X 線データセットに移動

BigQuery で一般公開データにアクセスする方法については、BigQuery の一般公開データセットをご覧ください。

Cloud Healthcare API

NIH 胸部 X 線データは、Cloud Healthcare API の次の DICOM ストア階層で入手できます。

プロジェクト: chc-nih-chest-xray
データセット: nih-chest-xray
DICOM ストア: nih-chest-xray

NIH 胸部 X 線データセットへのアクセス権をリクエストするには、こちらのフォームにご記入ください。

Cloud Healthcare API の NIH 胸部 X 線データセットに移動

詳細については、DICOM の概要と DICOMweb 規格の使用をご覧ください。

データビューア

Cloud Healthcare API と統合されたビューアも使用できます。

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

追加ラベル

NIH ChestX-ray14 データセットのサブセットのエキスパートラベルにアクセスするには、次のフォームに入力します。フォームに入力すると、ラベルをダウンロードできます。

Google フォームに移動してラベルを取得する

ラベルは 2 つの独立した研究の一環として収集されたものであり、以下の論文で説明されています。

2 つのラベルセットがあり、それぞれがいずれかの研究に関連付けられています。最初のラベルセットは、Radiology で発表された研究と関連付けられ、4 つの胸部 X 線の検査結果（気腔陰影、気胸、結節 / 腫瘤、骨折）に注目します。2 つ目のラベルセットはScientific Reportsで発表された研究と関連付けられ、元のデータセットでリリースされた 14 のすべての検査結果、および正常/異常ラベルを含みます。

4 つの検査結果のエキスパートラベル

Radiology論文における、4 つの検査結果（含気腔混濁、気胸、結節/腫瘤、骨折）に注目し、検証とテストのセットの両方を網羅したラベルのセット。各画像の最終的なラベルは、3 人の放射線科医師の厳正な審査により割り当てられました。各画像はまず、3 人の放射線科医師により別個に審査されました。テストセットでは、各画像で American Board of Radiology の認定放射線科医師のコホート（11 人）から放射線科医がランダムに選ばれました。検証セットでは、理事会認定の放射線科医と放射線科研修医を含む 13 人のコホートから 3 人の放射線科医が選ばれました。

最初の審査後にすべての審査員が合意した場合、そのラベルは最終版になります。合意に達しなかったラベルがある画像の場合は、追加の審査のために画像が戻されました。繰り返しの審査ごとの間には、匿名のラベルと前回の審査のメモも確認できました。合意が得られるまで、または 5 回までの審査が行われました。合意に達しなかった少数の画像については、過半数の投票のラベルが使用されました。

放射線科医審査時に入手可能な情報には、患者の年齢と画像ビュー（前後（AP）対後前（PA））のみが含まれました。追加の臨床情報は提示されませんでした。結節/腫瘤および気胸では、可能なラベルは「存在する」、「存在しない」、または「ヘッジ」（存在するか存在しないか不明を意味する）でした。混濁と骨折では、可能なラベル値は「存在する」または「存在しない」のみです。

ラベルは four_findings_expert_labels ディレクトリにあります。individual_readers.csv では、各行は 1 つの画像について 1 人の審査員が提供する 4 つの状態のラベルに対応しています。各画像 ID と対応する判定結果が複数の行（審査員ごとに 1 行）で繰り返されます。審査員 ID は、複数のイメージ間で安定したリンクとして提供されます。セルの値が YES の場合は「存在する」、NO の場合は「存在しない」、HEDGE の場合は「不明」をそれぞれ意味します。

validation_labels.csv と test_labels.csv では、NIH 胸部 X 線データセットの一部として提供されたメタデータは、4 つの条件（骨折、気胸、含気腔混濁、結節/腫瘤）のそれぞれに対して審査されたラベルの 1 つに対応する 4 つの列で拡張されています。テストセット内の一意の画像 ID の数は 1,962 個、検証セット内の一意の画像 ID の数は 2,412 個で、審査されたラベル付きの画像は合計 4,374 枚になります。審査ラベルの列には、YES と NO のみが表示されます。列の値がない場合は、この画像は審査済みの画像セットに含まれていません。

ラベルを使用する場合は、以下の引用情報を含めてください。

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

NIH 胸部 X 線データセットのライセンスと帰属の詳細については、上記のライセンスと帰属をご覧ください。

すべての検査結果のエキスパートラベル

科学レポート論文では、元のデータセットでリリースされた 14 の検査結果すべてに焦点を当てたラベルセットおよび正常/異常ラベル。ラベルのセットには、テストセットの画像のみが含まれます。これらの画像は、Four Findings Expert Labels テスト分割に含まれる画像と同じですが、PA ビューによる胸部 X 線に限定されます（1,962 枚の画像のうち 810 枚の画像）。

同じ 5 人の American Board of Radiology の認定放射線科医師が、各画像を個別に審査しました。各放射線科医はまず、画像に実用的な臨床検査結果（標準 / 異常なラベル）が含まれているかどうかを調べ、含まれる場合は 14 のどの条件を含めるかを選択します。放射線科医審査時に入手可能な情報は、患者の年齢と画像ビュー（AP と PA）のみが含まれていました。追加の臨床情報は提示されませんでした。

ラベルは all_findings_expert_labels ディレクトリにあります。test_individual_readers.csv では、各行は 1 つの画像に対する 1 人の放射線科医師のラベルに対応しています。これは、各画像 ID と患者 ID が複数の行（画像ごとに 5 行、審査員ごとに 1 行）で繰り返されることを意味します。各行には、放射線科医師を区別できるように審査員 ID も含まれています。このセットには合計 810 個の画像があるため、test_individual_readers.csv には 4,050 行、810 個の一意の画像 ID が含まれます。test_individual_readers.csv にも合計 19 の列が含まれます。画像 ID、患者 ID、審査員 ID に加えて、正常/異常の列、14 個の検査結果のそれぞれに対応する 1 つの列、他の異常な検査結果（特定された14 個以外）が存在することを示す Other の 1 つの列があります。セルの値が YES の場合は「存在する」、NO の場合は「存在しない」を意味します。

test_labels.csv には、科学レポート論文のディープラーニングシステムの評価に使用される正解ラベルが含まれています。各行には 1 つの画像 ID の正解ラベルが含まれています。1 つの画像 ID は 1 行に 1 つだけ表示され、行は合計で 810 行になります。test_labels.csv には test_individual_readers.csv と同じ列がありますが、「審査員 ID」列はありません。これらのラベルを取得するため、このセットにラベルを付けた 5 人の放射線科医のうち 3 人が「正解放射線科医」としてランダムに選ばれました（他の 2 人は比較ポイントとして使用されました）。これらの「正解放射線科」の審査員 ID は「4343882785」、「4343883593」、「4343883996」です。多数決によって、正常/異常ラベルに対する最終的なラベルと、各検査結果に対する最終的なラベルが決定されました。放射線科医の過半数が 14 以外の検出結果が存在すると選択した場合、または放射線科医の過半数が画像が異常であると指摘する一方で過半数が支持する単一の検査結果は存在しない場合、Other の列の最終ラベルは YES と決定されました。