Conjunto de datos de radiografías de tórax de los NIH

El conjunto de datos de radiografías de tórax de los NIH consta de 100,000 imágenes desidentificadas de radiografías de tórax. Las imágenes están en formato PNG.

Los datos son proporcionados por el Centro clics de NIH y están disponibles a través del sitio de descarga de NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

También puedes acceder a los datos a través de Google Cloud (GCP), como se describe en Acceso a los datos de Google Cloud.

Licencia y atribución

No hay restricciones para el uso de las imágenes de radiografías de tórax de los NIH. Sin embargo, el conjunto de datos tiene los siguientes requisitos de atribución:

  • Proporciona un vínculo al sitio de descarga de NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Incluir una cita en el documento de CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Reconocer que el centro clínico de los NIH es el proveedor de datos

Acceso a los datos de Google Cloud

Puedes obtener las imágenes de radiografías de tórax de los NIH de Cloud Storage, BigQuery o la API de Cloud Healthcare.

Cloud Storage

Los datos de radiografías de tórax de los NIH están disponibles en el siguiente bucket de Cloud Storage:

gs://gcs-public-data--healthcare-nih-chest-xray

Ir al conjunto de datos de radiografías de tórax de los NIH en Cloud Storage

El bucket incluye las rutas a los archivos PNG originales, además de las instancias de DICOM:

PNG (proporcionado por NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (proporcionado por Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

El bucket de Cloud Storage usa el modelo de “Pagos del solicitante” para la facturación. Se facturarán los cargos asociados con el acceso a los datos de NIH de tu proyecto de Google Cloud. Para obtener más información, consulta Pagos del solicitante.

BigQuery

Los datos de radiografías de tórax de los NIH están disponibles en el proyecto chc-nih-chest-xray de Google Cloud en BigQuery.

Ir al conjunto de datos de radiografías de tórax de los NIH en BigQuery

Para obtener información sobre cómo acceder a los datos públicos en BigQuery, consulta Conjuntos de datos públicos de BigQuery.

Cloud Healthcare API

Los datos de radiografías de tórax de los NIH están disponibles en la siguiente jerarquía de almacenamiento de DICOM en la API de Cloud Healthcare:

Proyecto: chc-nih-chest-xray
Conjunto de datos: nih-chest-xray
Almacén de DICOM: nih-chest-xray

Para solicitar acceso al conjunto de datos de radiografías de tórax de los NIH, completa este formulario.

Ir al conjunto de datos de radiografías de tórax de los NIH en la API de Cloud Healthcare

Para obtener más información, consulta la Descripción general de DICOM y Usa el estándar DICOMweb.

Lectores de datos

También puedes usar los visores integrados con la API de Cloud Healthcare:

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Etiquetas adicionales

Si deseas acceder a etiquetas de expertos de un subconjunto del conjunto de datos de NIH ChestX-ray14, completa el siguiente formulario. Después de completar el formulario, puedes descargar las etiquetas.

Ve al formulario de Google para obtener las etiquetas

Las etiquetas se recopilaron como parte de dos estudios independientes y se describen en los siguientes documentos:

Hay dos conjuntos de etiquetas, cada una asociada con uno de los estudios. El primer conjunto de etiquetas está asociado con el estudio publicado en Radiology y se enfoca en cuatro hallazgos de rayos X de tórax: opacidad del espacio aéreo y neumotórax. , nódulo/masa y fractura. El segundo conjunto de etiquetas está asociado con el estudio publicado en Informes científicos y, además, incluye los 14 resultados encontrados en el conjunto de datos original y una etiqueta normal/anormal.

Cuatro etiquetas de expertos en los hallazgos

En el artículo Radiology, el conjunto de etiquetas se enfocó en cuatro hallazgos (opacidad del espacio, neumotórax, nódulo/masa y fractura) y abarcó la validación. y conjuntos de prueba. Las etiquetas finales de cada imagen se asignaron a través de una revisión adjudicada por tres radiólogos. Tres imágenes fueron revisadas por primera vez de forma independiente por tres radiólogos. Para el conjunto de pruebas, se seleccionaron al azar radiólogos en cada imagen de una cohorte de 11 radiólogos certificados por la Junta Americana de Radiología. Para el conjunto de validación, se seleccionaron los tres radiólogos de una cohorte de 13 personas, incluidos los radiólogos certificados por la junta y los residentes de radiología.

Si todos los lectores estaban de acuerdo después de la revisión inicial, esa etiqueta se convirtió en definitiva. En las imágenes con confirmaciones de etiquetas, las imágenes se mostraron para una revisión adicional. Las etiquetas anónimas y las notas de las rondas anteriores también estaban disponibles durante cada revisión iterativa. El adjuicio continúa hasta el consenso o hasta un máximo de cinco rondas. En la pequeña cantidad de imágenes para las que no se alcanzó el consenso, se usó la etiqueta de votación mayor.

La información disponible en el momento de la revisión del radiólogo incluyó solo la edad del paciente y la vista de imagen (posterior posterior (AP) en comparación con la fase posterior anterior (PA). La información médica adicional no estaba disponible. Para el nódulo/masa y el neumotórax, las posibles etiquetas eran: “presente”, “abierto” o “seto” (lo que significa incierto si está presente o ausente). En el caso de la opacidad y la fractura, los posibles valores de etiqueta solo eran "presente" o "distinto".

Las etiquetas están en el directorio four_findings_expert_labels. En individual_readers.csv, cada fila corresponde a la etiqueta de cada una de las cuatro condiciones que proporciona un solo lector para una sola imagen. Cada ID de imagen y el resultado de la adjudicación correspondiente se repiten en varias filas (una fila por lector). El ID del lector se proporciona para la vinculación estable entre imágenes. Un valor de celda de YES significa “presente”, NO significa “abierto” y HEDGE significa “incierto”.

En validation_labels.csv y test_labels.csv, los metadatos proporcionados como parte del conjunto de datos de rayos X del pecho NIH se incrementaron con cuatro columnas, una para la etiqueta ajustada para cada una de las cuatro condiciones: fractura , neumotórax, opacidad del espacio aéreo y nódulo/masa. Hay 1,962 ID de imágenes únicos en el conjunto de prueba y 2,412 ID de imágenes únicos en el conjunto de validación en un total de 4,374 imágenes con etiquetas adjudicadas. Solo YES y NO aparecen en las columnas de etiqueta de adjudicación. Si falta un valor de columna, la imagen no se incluyó en el conjunto de imágenes ajustadas.

Cuando uses estas etiquetas, incluye la siguiente cita:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Interpretación de radiografías de tórax con modelos de aprendizaje profundo: evaluación mediante estándares de referencia imparcial de la radiología y evaluación de población, radiología, 2019.

Para obtener más información sobre la licencia y la atribución del conjunto de datos de rayos tóxicos de NIH, consulta la sección Licencia y atribución.

Todas las etiquetas de expertos en los hallazgos

En el informe Scientific Reports, el conjunto de etiquetas se enfocó en los 14 resultados encontrados en el conjunto de datos original. una etiqueta normal/anormal. El conjunto de etiquetas solo contenía imágenes del conjunto de prueba. Estas imágenes son idénticas a las imágenes incluidas en la división de prueba Four Findings Expert Labels, restringidas a los rayos X de pecho con vista de PA (810 imágenes de las 1,962 imágenes).

Los mismos cinco radiólogos certificados de la Junta de Radiología de Estados Unidos revisaron cada imagen de forma independiente. En un principio, a cada radiólogo se le preguntó si la imagen contenía algún resultado clínico potencialmente útil (etiqueta normal o anormal) y, de ser así, para seleccionar cuál de las 14 afecciones estaba presente. La información disponible en el momento de la revisión del radiólogo incluía solo la edad del paciente y la vista de imagen (AP en comparación con la PA). La información médica adicional no estaba disponible.

Las etiquetas están en el directorio all_findings_expert_labels. En test_individual_readers.csv, cada fila corresponde a las etiquetas de un solo radiólogo para una imagen. Esto significa que cada ID de imagen y cada ID de paciente se repite en varias filas (cinco filas por imagen, una fila por lector). Cada fila también contiene un ID de lector para que se pueda distinguir a los radiólogos. Debido a que hay un total de 810 imágenes en este conjunto, test_individual_readers.csv contiene 4,050 filas con 810 ID de imagen únicos. test_individual_readers.csv también contiene un total de 19 columnas. Además del ID de imagen, el ID de paciente y el ID de lector, hay una columna destinada a normal o anormal, una columna para cada uno de los 14 hallazgos y una columna para Other que indica otros. hay hallazgos anormales (fuera de los 14 especificados). Un valor de celda de YES significa "presente" y NO significa "abierto".

test_labels.csv contiene las etiquetas de verdad fundamental que se usan para evaluar el sistema de aprendizaje profundo en el informe de informes científicos. Cada fila contiene las etiquetas de verdad fundamental de un solo ID de imagen, y cada ID de imagen solo aparece en una fila, lo que da un total de 810 filas. test_labels.csv tiene las mismas columnas que test_individual_readers.csv, pero sin una columna de "ID de lector". Para obtener estas etiquetas, tres de los cinco radiólogos que etiquetaron este conjunto se eligieron de forma aleatoria como los “radiólogos de verdad fundamental” (los otros dos se usaron como puntos de comparación). Estos "radiólogos de verdad fundamental" tienen ID de lector de "4343882785", "4343883593" y "4343883996". Se usó un voto de mayoría para determinar la etiqueta final de las etiquetas normal/anormal y la etiqueta final para cada resultado específico. Se determinó que la etiqueta final para la columna Other era YES si la mayoría de los radiólogos seleccionaba que había un resultado fuera de los 14 indicios, o si la mayoría de los radiólogos indicaba que la imagen era anormal, pero ningún hallazgo ha tenido la mayoría de los radiólogos.

Cuando uses estas etiquetas, incluye la siguiente cita:

Zaid Nabulsi, Andrew sellersgren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick y Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis y COVID-19, Informes científicos, 2021. https://doi.org/10.1038/s41598-021-93967-2

Para obtener más información sobre la licencia y la atribución del conjunto de datos de rayos X de pecho de NIH, consulta Licencia y atribución.