NIH Chest X-Ray 数据集

NIH Chest X-Ray 数据集内包含 10 万张胸部 X 射线检查的去标识化图像。这些图像采用 PNG 格式。

该数据由 NIH Clinical Center 提供,并可通过 NIH 下载网站获取:https://nihcc.app.box.com/v/ChestXray-NIHCC

您也可以通过 Google Cloud (GCP) 访问数据,如 Google Cloud 数据访问所述。

许可和署名

NIH Chest X-Ray 影像没有任何使用限制。但是,该数据集具有以下署名要求:

  • 请提供一个指向 NIH 下载网站的链接:https://nihcc.app.box.com/v/ChestXray-NIHCC

  • 引用 CVPR 2017 论文:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • 确认 NIH Clinical Center 是数据提供者

Google Cloud 数据访问

你可以从 Cloud Storage、BigQuery 或使用 Cloud Healthcare API 获取 NIH Chest X-Ray 影像。

Cloud Storage

以下 Cloud Storage 存储分区中提供了 NIH Chest X-Ray 数据:

gs://gcs-public-data--healthcare-nih-chest-xray

转到 Cloud Storage 中的 NIH Chest X-Ray 数据集

该存储分区包含原始 PNG 文件以及 DICOM 实例的路径:

PNG(由 NIH 提供):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM(由 Google 提供):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Cloud Storage 存储分区都使用“请求者付款”模式进行结算。因访问 NIH 数据产生了费用,将向您的 Google Cloud 项目收取费用。如需了解详情,请参阅请求者付款

BigQuery

在 BigQuery 的 chc-nih-chest-xray Google Cloud 项目中提供了 NIH Chest X-Ray 数据。

转到 BigQuery 中的 NIH Chest X-Ray 数据集

如需了解如何访问 BigQuery 中的公共数据,请参阅 BigQuery 公共数据集

Cloud Healthcare API

在 Cloud Healthcare API 中的以下 DICOM 存储区层次结构中提供了 NIH Chest X-Ray 数据:

项目chc-nih-chest-xray
数据集nih-chest-xray
DICOM 存储区nih-chest-xray

如需请求访问 NIH Chest X-Ray 数据集,请填写此表单

转到 Cloud Healthcare API 中的 NIH Chest X-Ray 数据集

如需了解详情,请参阅 DICOM 概述使用 DICOMweb 标准

数据查看器

您还可以使用与 Cloud Healthcare API 集成的查看器:

eUnity:https://demo.eunity.app

IMS CloudVue:https://cloudvue.imstsvc.com

附加标签

如需访问 NIH ChestX-ray14 数据集子集的专家标签,请填写以下表单。完成表单后,您可以下载标签。

转到 Google 表单以获取标签

这些标签属于两项独立研究的一部分,并在以下论文中进行了说明:

有两组标签,每组与一项研究相关联。第一组标签与放射学中发布的研究相关联,并专注于四个胸部 X 射线发现结果:空域不透明度、气胸、结节/肿块和骨折。第二组标签与《科学报告》中发布的研究关联,并包含原始数据集中发布的所有 14 个发现结果和正常/异常标签。

四个发现结果专家标签

放射学论文中,这组标签侧重于四个发现结果(空域不透明度、气胸、结节/肿块和骨折),包括验证集和测试集。每张影像的最终标签都是通过三位放射科医师裁决审核进行分配的。每张影像首先由 3 位放射科医生单独审核。对于测试集,将从 American Board of Radiology 认证的 11 位放射科医生中随机为每张影像选择放射科医生。 对于验证集,将从 13 位专家(包括专业认证的放射科医生和放射科住院医生)中选择 3 位放射科医生。

如果所有审核者在初审后意见达成一致,则该标签将成为最终标签。对于标签不一致的影像,系统会返回影像以供再次审核。前几轮中的匿名标签和所有备注在每次迭代审核期间都可用。将在达成一致意见后进行最终裁决,最多不超过 5 轮。对于未达成一致意见的少数影像,使用多数人选择的标签。

放射科医生检查时可用的信息仅包括患者年龄和图片视图(前置后 AP)与后置前 (PA)。未提供其他临床信息。对于结节/肿块和气胸,可能的标签为:“存在”、“不存在”或“保留”(表示不确定是否存在)。对于不透明和骨折,可能的标签值只有“存在”或“不存在”。

标签位于 four_findings_expert_labels 目录中。在 individual_readers.csv 中,每行对应于单个读取器为单个图片提供的四个条件的每个标签。每个影像 ID 和相应的裁决结果会在多行中重复(每个读取者一行)。读取者 ID 用于稳定地关联各个图片。YES 单元值表示“存在”,NO 表示“不存在”,HEDGE 表示“不确定”。

validation_labels.csvtest_labels.csv 中,作为 NIH 胸部 x 射线数据集的一部分提供的元数据增强了 4 列,4 个列分别用于裁切标签:骨折、气动胸、空域不透明度和结节/肿块。测试集和验证集中的唯一影像 ID 数目分别为 1962 个和 2,412 个,因此总共有 4374 张含裁决标签的影像。只有 YESNO 会显示在裁决标签列中。如果缺少列值,则此影像不会包含在裁决的影像集中。

使用这些标签时,请添加以下引用:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

如需详细了解 NIH 胸部 X 射线数据集的许可和归因,请参阅上文中的许可和归因部分。

所有发现结果专家标签

科学报告论文中,这组标签侧重于原始数据集中发布的所有 14 个发现结果,以及普通/异常标签。标签集仅包含来自测试集的图片。这些图片与 Four Findings Expert Labels 测试拆分中包含的图片相同,仅限使用 PA 视图的胸部 X 光片(在 1962 张图片中有 810 张)。

由美国放射科医师认证机构认证的由五位放射科医生会单独审核每张影像。我们首先询问每位放射科医生,影像中是否包含任何可行的临床发现结果(正常/异常标签),如果是,则选择 14 个条件中的相应的项。放射科医生审核时可用的信息仅包括患者年龄和影像视图(AP 和 PA)。未提供其他临床信息。

标签位于 all_findings_expert_labels 目录中。在 test_individual_readers.csv 中,每行对应于单个图像的单个放射科医生的标签。也就是说,每个图像 ID 和患者 ID 会在多行中重复(每张图像有五行,每个读取者一行)。每行还包含读取者 ID,以便区分不同的放射科医师。 由于此集合中总共有 810 张图像,因此 test_individual_readers.csv 包含 4050 行,其中包含 810 个唯一图像 ID。test_individual_readers.csv 还包含总共 19 列。除了图像 ID、患者 ID 和读取者 ID 之外,还有正常/异常列、14 个发现结果分别对应的列以及表示存在其他异常发现结果的 Other 列(在指定的 14 个之外)。单元格值 YES 表示“存在”,NO 表示“不存在”。

test_labels.csv 包含用于评估科学报告论文中深度学习系统的标准答案标签。每行包含单个图像 ID 的标准答案标签,每个图像 ID 仅在一行中显示,总共 810 行。test_labels.csv 具有与 test_individual_readers.csv 相同的列,但没有“读取者 ID”列。为了获得这些标签,随机选择标记该集合的五名放射科医生中的三名作为“标准答案放射科医生”(另外两名用作比较点)。这些“标准答案放射科医生”的读取者 ID 为“4343882785”、“4343883593”和“4343883996”。多数人的投票决定普通/异常标签的最终标签,以及每个特定发现结果的最终标签。如果绝大多数放射科专家选择了 14 项结果以外的发现结果,或者大多数放射科专家都指出该图像存在异常,但大多数放射科医师表示没有单一发现存在,则 Other 列的最后一个标签为 YES

使用这些标签时,请添加以下引用:

Zaid Nabulsi、Andrew Sellergren、Shahar Jamshy、Charles Lau、Eddie Santos、Atilla P。Kiraly、Wenxing Ye、Jie Yang、Sahar Kazemzadeh、Jin Yu、Raju Kalidindi、Mozziyar Etemadi、Florencia Garcia Vicente、David Melnick、Greg S。Corrado、Lily Peng、Krish Eswaran、Daniel Tse、Neeral Beladia、Yun Liu、Po-Hsuan Cameron Chen、Shravya Shetty,深度学习可区分正常和异常的胸部 X 光片,并泛化至两种未知疾病结核病与新冠肺炎 (COVID-19)》,《科学报告》,2021 年。https://doi.org/10.1038/s41598-021-93967-2

如需详细了解 NIH 胸部 X 射线数据集的许可和归因,请参阅许可和归因