NIH 胸部 X 線データセット

NIH 胸部 X 線データセットには、匿名化された胸部 X 線画像が 100,000 個含まれています。これらの X 線画像の形式は PNG です。

このデータは、NIH クリニカル センターから提供されており、NIH ダウンロード サイト(https://nihcc.app.box.com/v/ChestXray-NIHCC)を通じて入手できます。

Google Cloud のデータ アクセスで説明されているように、Google Cloud(GCP)を介してデータにアクセスすることもできます。

ライセンスと帰属

NIH 胸部 X 線画像の使用に関する制限はありません。ただし、データセットには以下のような帰属に関する要件があります。

  • NIH ダウンロード サイトのリンク(https://nihcc.app.box.com/v/ChestXray-NIHCC)を提供します。

  • CVPR 2017 論文の引用を含めます。

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • NIH Clinical Center がデータ プロバイダであることを認めます。

Google Cloud のデータ アクセス

NIH 胸部 X 線画像は、Cloud Storage および BigQuery から取得できます。また、Cloud Healthcare API を使用して取得することもできます。

クラウド ストレージ

NIH 胸部 X 線データは、次の Cloud Storage バケットで入手できます。

gs://gcs-public-data--healthcare-nih-chest-xray

Cloud Storage の NIH 胸部 X 線データセットに移動

バケットには、元の PNG ファイルのほかに DICOM インスタンスへのパスも含まれます。

PNG(NIH 提供):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM(Google 提供):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Cloud Storage バケットでは、請求で「リクエスト元による支払い」モデルが使用されます。NIH データへのアクセスに関連する料金は、Google Cloud プロジェクトに課金されます。詳しくは、リクエスト元による支払いをご覧ください。

BigQuery

NIH 胸部 X 線データは、BigQuery の chc-nih-chest-xray Google Cloud プロジェクトで入手できます。

BigQuery の NIH 胸部 X 線データセットに移動

BigQuery で一般公開データにアクセスする方法については、BigQuery の一般公開データセットをご覧ください。

Cloud Healthcare API

NIH 胸部 X 線データは、Cloud Healthcare API の次の DICOM ストア階層で入手できます。

プロジェクト: chc-nih-chest-xray
データセット: nih-chest-xray
DICOM ストア: nih-chest-xray

NIH 胸部 X 線データセットへのアクセス権をリクエストするには、こちらのフォームにご記入ください。

Cloud Healthcare API の NIH 胸部 X 線データセットに移動

詳細については、DICOM の概要DICOMweb 規格の使用をご覧ください。

データビューア

Cloud Healthcare API と統合されたビューアも使用できます。

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

追加ラベル

NIH ChestX-ray14 データセットのサブセットのエキスパート ラベルにアクセスするには、次のフォームに入力します。フォームを入力したら、ラベルをダウンロードできます。

Google フォームに移動してラベルを取得する

ラベルは 2 つの独立した研究の一環として収集されたものであり、以下の論文で説明されています。

2 つのラベルセットがあり、それぞれがいずれかの研究に関連付けられています。最初のラベルセットは、Radiology で発表された研究と関連付けられ、4 つの胸部 X 線の検査結果(含気腔混濁、気胸、結節/腫瘤、骨折)に注目します。2 つ目のラベルセットはScientific Reportsで発表された研究と関連付けられ、元のデータセットでリリースされた 14 のすべての検査結果、および正常/異常ラベルを含みます。

4 つの検査結果のエキスパート ラベル

Radiology論文における、4 つの検査結果(含気腔混濁、気胸、結節/腫瘤、骨折)に注目し、検証とテストのセットの両方を網羅したラベルのセット。各画像の最終的なラベルは、3 人の放射線科医師の厳正な審査により割り当てられました。各画像はまず、3 人の放射線科医師により別個に審査されました。テストセットでは、各画像で American Board of Radiology の認定放射線科医師のコホート(11 人)から放射線科医がランダムに選ばれました。 検証セットでは、理事会認定の放射線科医と放射線科研修医を含む 13 人のコホートから 3 人の放射線科医が選ばれました。

最初の審査後にすべての審査員が合意した場合、そのラベルは最終版になります。合意に達しなかったラベルがある画像の場合は、追加の審査のために画像が戻されました。繰り返しの審査ごとの間には、匿名のラベルと前回の審査のメモも確認できました。合意が得られるまで、または 5 回までの審査が行われました。合意に達しなかった少数の画像については、過半数の投票のラベルが使用されました。

放射線科医審査時に入手可能な情報には、患者の年齢と画像ビュー(前後(AP)対後前(PA))のみが含まれました。追加の臨床情報は提示されませんでした。結節/腫瘤および気胸では、可能なラベルは「存在する」、「存在しない」、または「ヘッジ」(存在するか存在しないか不明を意味する)でした。混濁と骨折では、可能なラベル値は「存在する」または「存在しない」のみです。

ラベルはディレクトリ four_findings_expert_labels にあります。individual_readers.csv では、各行は 1 つの画像について 1 人の審査員が提供する 4 つの状態のラベルに対応しています。各画像 ID と対応する判定結果が複数の行(審査員ごとに 1 行)で繰り返されます。審査員 ID は、複数の画像間で安定したリンクとして提供されます。セルの値が「YES」の場合は「存在する」、「NO」の場合は「存在しない」、HEDGE の場合は「不明」を意味します。

validation_labels.csvtest_labels.csv では、NIH 胸部 X 線データセットの一部として提供されたメタデータは、4 つの条件(骨折、気胸、含気腔混濁、結節/腫瘤)のそれぞれに対して審査されたラベルの 1 つに対応する 4 つの列で拡張されています。テストセット内の一意の画像 ID の数は 1,962 個、検証セット内の一意の画像 ID の数は 2,412 個で、審査されたラベル付きの画像は合計 4,374 枚になります。審査ラベルの列には、YESNO のみが表示されます。列の値がない場合は、この画像は審査済みの画像セットに含まれていません。

ラベルを使用する場合は、以下の引用情報を含めてください。

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

NIH 胸部 X 線データセットのライセンスと帰属の詳細については、上記のライセンスと帰属をご覧ください。

すべての検査結果のエキスパート ラベル

科学レポート論文では、元のデータセットでリリースされた 14 の検査結果すべてに焦点を当てたラベルセットおよび正常/異常ラベル。ラベルのセットには、テストセットの画像のみが含まれます。これらの画像は、Four Findings Expert Labels テスト分割に含まれる画像と同じですが、PA ビューによる胸部 X 線に限定されます(1,962 枚の画像のうち 810 枚の画像)。

同じ 5 人の American Board of Radiology の認定放射線科医師が、各画像を個別に審査しました。各放射線科医はまず、画像に実用的な臨床検査結果(標準 / 異常なラベル)が含まれているかどうかを調べ、含まれる場合は 14 のどの条件を含めるかを選択します。放射線科医審査時に入手可能な情報は、患者の年齢と画像ビュー(AP と PA)のみが含まれていました。追加の臨床情報は提示されませんでした。

ラベルはディレクトリ all_findings_expert_labels にあります。test_individual_readers.csv では、各行は 1 つの画像に対する 1 人の放射線科医のラベルに対応しています。これは、各画像 ID と患者 ID が複数の行(画像ごとに 5 行、読み取りごとに 1 行)で繰り返されることを意味します。各行には、放射線科医師を区別できるように審査員 ID も含まれています。このセットには合計 810 個の画像があるため、test_individual_readers.csv には 4,050 行、810 個の一意の画像 ID が含まれます。test_individual_readers.csv には合計 19 の列も含まれます。画像 ID、患者 ID、審査員 ID に加えて、正常/異常の列、14 個の各検出結果に対応する列、他の異常な検出結果が存在する列を示す Other の列があります(指定された 14 個以外)。セルの値が「YES」の場合は「存在する」、NO の場合は「存在しない」を意味します。

test_labels.csv には、科学レポート論文のディープ ラーニング システムを評価するために使用される正解ラベルが含まれています。 各行には 1 つの画像 ID の正解ラベルが含まれています。各画像 ID は 1 行にのみ表示され、合計で 810 行になります。test_labels.csv には test_individual_readers.csv と同じ列がありますが、「審査員 ID」列はありません。これらのラベルを取得するため、このセットにラベルを付けた 5 人の放射線科医のうち 3 人が「正解放射線科医」としてランダムに選ばれました(他の 2 人は比較ポイントとして使用されました)。これらの「正解放射線科医」の審査員 ID は「4343882785」、「4343883593」、「4343883996」です。多数決によって、正常/異常ラベルの最終ラベルと、各検出結果の最終ラベルが決定されます。過半数の放射線科医師が 14 個以外の検出結果が存在することを選択したか、または過半数の放射線科医が画像が異常であると指摘したものの、過半数の放射線科医が指摘した検出結果が存在しない場合、Other 列の最終的なラベルが YES であると判断されました。

ラベルを使用する場合は、以下の引用情報を含めてください。

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2

NIH 胸部 X 線データセットのライセンスと帰属の詳細については、ライセンスと帰属をご覧ください。