NIH 胸部 X 線データセット

NIH 胸部 X 線データセットには、匿名化された胸部 X 線画像が 100,000 個含まれています。これらの X 線画像の形式は PNG です。

このデータは、NIH クリニカル センターから提供されており、NIH ダウンロード サイト(https://nihcc.app.box.com/v/ChestXray-NIHCC)を通じて入手できます。

Google Cloud のデータ アクセスで説明されているように、Google Cloud(GCP)を介してデータにアクセスすることもできます。

ライセンスと帰属

NIH 胸部 X 線画像の使用に関する制限はありません。ただし、データセットには以下のような帰属に関する要件があります。

  • NIH ダウンロード サイトのリンク(https://nihcc.app.box.com/v/ChestXray-NIHCC)を提供します。

  • CVPR 2017 論文の引用を含めます。

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • NIH Clinical Center がデータ プロバイダであることを認めます。

Google Cloud のデータ アクセス

NIH 胸部 X 線画像は、Cloud Storage および BigQuery から取得できます。また、Cloud Healthcare API を使用して取得することもできます。

クラウド ストレージ

NIH 胸部 X 線データは、次の Cloud Storage バケットで入手できます。

gs://gcs-public-data--healthcare-nih-chest-xray

Cloud Storage の NIH 胸部 X 線データセットに移動

バケットには、元の PNG ファイルのほかに DICOM インスタンスへのパスも含まれます。

PNG(NIH 提供):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM(Google 提供):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Cloud Storage バケットでは、請求で「リクエスト元による支払い」モデルが使用されます。NIH データへのアクセスに関連する料金は、Google Cloud プロジェクトに課金されます。詳しくは、リクエスト元による支払いをご覧ください。

BigQuery

NIH 胸部 X 線データは、BigQuery の chc-nih-chest-xray Google Cloud プロジェクトで入手できます。

BigQuery の NIH 胸部 X 線データセットに移動

BigQuery で一般公開データにアクセスする方法については、BigQuery の一般公開データセットをご覧ください。

Cloud Healthcare API

NIH 胸部 X 線データは、Cloud Healthcare API の次の DICOM ストア階層で入手できます。

プロジェクト: chc-nih-chest-xray
データセット: nih-chest-xray
DICOM ストア: nih-chest-xray

NIH 胸部 X 線データセットへのアクセス権をリクエストするには、こちらのフォームにご記入ください。

Cloud Healthcare API の NIH 胸部 X 線データセットに移動

詳細については、DICOM の概要DICOMweb 規格の使用をご覧ください。

データビューア

Cloud Healthcare API と統合されたビューアも使用できます。

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

追加ラベル

次の Cloud Storage バケットでは、NIH 胸部 X 線データの追加ラベルを使用できます。

gs://gcs-public-data--healthcare-nih-chest-xray-labels

Cloud Storage の NIH 胸部 X 線データセット ラベルに移動

これらのラベルの詳細については、Radiology の論文をご覧ください。

ラベルが作成された方法

各画像の最終的なラベルは、3 人の放射線科医師の厳正な審査により割り当てられました。各画像は、3 人の放射線科医師により別個に審査されました。テストセットでは、各画像で American Board of Radiology の認定放射線科医師のコホート(11 人)から放射線科医がランダムに選ばれました。検証セットでは、理事会認定の放射線科医と放射線科研修医を含む 13 人のコホートから 3 人の放射線科医が選ばれました。

最初の審査後にすべての審査員が合意した場合、そのラベルは最終版になります。合意に達しなかったラベルがある画像の場合は、追加の審査のために画像が戻されました。繰り返しの審査ごとの間には、匿名のラベルと前回の審査のメモも確認できました。合意が得られるまで、または 5 回までの審査が行われました。合意に達しなかった少数の画像については、過半数の投票のラベルが使用されました。

審査時に提示された情報には、患者の年齢と画像ビューのみが含まれました(AP と PA の比較)。追加の臨床情報は提示されませんでした。結節 / 腫瘤と気胸の場合、ラベルの候補は、存在する、存在しない、または「ヘッジ」(存在するかどうか不明)でした。陰影と断裂の場合、ラベルの値は存在するか、存在しないだけでした。

これらのラベルの使用方法

individual_readers.csv というタイトルの CSV では、各行は 1 つの画像について 1 人の審査員が提供する 4 つの状態のラベルに対応しています。これは、各画像 ID と対応する判定結果が複数の行(審査員ごとに 1 行)で繰り返されることを意味します。審査員 ID は、複数のイメージ間で安定したリンクとして提供されます。セルの値が「YES」の場合は「存在する」、「NO」の場合は「存在しない」、「HEDGE」の場合は「不明」を意味します。

validation_labels.csvtest_labels.csv というタイトルの CSV では、NIH 胸部 X 線データセットの一部として提供されるメタデータに 4 つの列が追加されました。この列には、断裂、気胸、気腔陰影、結節 / 腫瘤の 4 つの状態ごとに審査されたラベルが入っています。テストセット内の一意の画像 ID の数は 1,962 個、検証セット内の一意の画像 ID の数は 2,412 個で、審査されたラベル付きの画像は合計 4,374 枚になります。審査ラベルの列には「YES」と「NO」のみが表示されます。列の値がない場合は、この画像は審査済みの画像セットに含まれていません。

ラベルを使用する場合は、以下の引用情報を含めてください。

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

NIH 胸部 X 線データセットのライセンスと帰属表示の詳細については、上記のライセンスと帰属表示をご覧ください。

これらのラベルを使用する理由

単一の審査員または複数の審査員による多数決を使用すると、モデルの開発と評価に使用されるラベルにエラーや不整合が生じる場合があります。このことにより、モデルのパフォーマンスを推定する信頼性が低下する可能性があります。

たとえば、3 人の審査員のうち 1 人だけが難しい発見を正しく検出した場合、多数決によって却下されてしまいます。その場合、同様な発見を検出するモデルの能力が制限されるだけでなく(トレーニング データに存在しない)、評価結果にもこれらのエラーが反映されない(誤った参照基準)ため、モデルの正確性を不当に上げてしまいます。専門家による審査は、より質の高いモデルの開発と評価につながる、より厳密なアプローチです。