Set di dati per immagini toraciche a raggi X NIH

Il set di dati di radiografie toraciche NIH è costituito da 100.000 immagini anonimizzate di radiografie toraciche. Le immagini sono in formato PNG.

I dati sono forniti dal NIH Clinical Center e sono disponibili tramite il sito di download del NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

Puoi anche accedere ai dati tramite Google Cloud, come descritto in Accesso ai dati di Google Cloud.

Licenza e attribuzione

Non sono previste limitazioni all'utilizzo delle immagini toraciche a raggi X degli NIH. Tuttavia, il set di dati presenta i seguenti requisiti di attribuzione:

  • Fornisci un link al sito di download del NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Includi una citazione al documento del CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Riconoscere che il Centro clinico NIH è il fornitore di dati

Accesso ai dati di Google Cloud

Puoi ottenere le immagini delle radiografie toraciche dell'NIH da Cloud Storage, BigQuery o utilizzando l'API Cloud Healthcare.

Cloud Storage

I dati delle immagini toraciche a raggi X NIH sono disponibili nel seguente bucket Cloud Storage:

gs://gcs-public-data--healthcare-nih-chest-xray

Vai al set di dati per immagini toraciche a raggi X NIH in Cloud Storage

Il bucket include i percorsi dei file PNG originali e delle istanze DICOM:

PNG (fornito dall'NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (fornito da Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Il bucket Cloud Storage utilizza il modello "Chiedi e paghi" per la fatturazione. Al tuo progetto Google Cloud verranno addebitati gli importi associati all'accesso ai dati dell'NIH. Per ulteriori informazioni, consulta la sezione Il richiedente paga.

BigQuery

I dati delle radiografie toraciche del NIH sono disponibili nel progetto Google Cloud chc-nih-chest-xray in BigQuery.

Vai al set di dati di radiografie toraciche NIH in BigQuery

Per informazioni su come accedere ai dati pubblici in BigQuery, consulta Set di dati pubblici di BigQuery.

API Cloud Healthcare

I dati delle radiografie toraciche dell'NIH sono disponibili nella seguente gerarchia dell'archivio DICOM nell'API Cloud Healthcare:

Progetto: chc-nih-chest-xray
Set di dati: nih-chest-xray
Archivio DICOM: nih-chest-xray

Per richiedere l'accesso al set di dati di radiografie toraciche del NIH, compila questo modulo.

Vai al set di dati per immagini toraciche a raggi X NIH nell'API Cloud Healthcare

Per ulteriori informazioni, consulta la Panoramica di DICOM e Utilizzo dello standard DICOMweb.

Visualizzatori di dati

Puoi anche utilizzare i visualizzatori integrati con l'API Cloud Healthcare:

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Etichette aggiuntive

Per accedere alle etichette degli esperti per un sottoinsieme del set di dati NIH ChestX-ray14, compila il seguente modulo. Dopo aver compilato il modulo, puoi scaricare le etichette.

Vai al modulo Google per ottenere le etichette

Le etichette sono state raccolte nell'ambito di due studi indipendenti e sono descritte nei seguenti documenti:

Esistono due insiemi di etichette, ciascuno associato a uno degli studi. Il primo insieme di etichette è associato allo studio pubblicato su Radiology e si concentra su quattro risultati della radiografia del torace: opacità degli spazi aerei, pneumotorace, nodulo/massa e frattura. Il secondo insieme di etichette è associato allo studio pubblicato su Scientific Reports e include tutti e 14 i risultati pubblicati nel set di dati originale, e un'etichetta normale/anomala.

Quattro etichette di esperti per i risultati

Nel articolo sulla radiologia, l'insieme di etichette si concentrava su quattro risultati (opacità dell'aria, pneumotorace, nodulo/massa e frattura) e includeva sia i set di convalida sia i set di test. Le etichette finali per ogni immagine sono state assegnate tramite una revisione con decisione di tre radiologi. Ogni immagine è stata inizialmente esaminata in modo indipendente da tre radiologi. Per il set di test, i radiologi sono stati selezionati in modo casuale per ogni immagine da un gruppo di 11 radiologi certificati dall'American Board of Radiology. Per il set di convalida, i tre radiologi sono stati selezionati da un gruppo di 13 persone, tra cui radiologi certificati e specializzandi in radiologia.

Se tutti i lettori erano d'accordo dopo la revisione iniziale, l'etichetta diveniva definitiva. Le immagini con disaccordi sulle etichette sono state restituite per un'ulteriore revisione. Le etichette anonime e le eventuali note dei round precedenti erano disponibili anche durante ogni revisione iterativa. La valutazione è proseguita fino al consenso o fino a un massimo di cinque round. Per il numero ridotto di immagini per le quali non è stato raggiunto il consenso, è stata utilizzata l'etichetta del voto a maggioranza.

Le informazioni disponibili al momento della revisione del radiologo includevano solo l'età del paziente e la visualizzazione dell'immagine (anteriore-posteriore (AP) rispetto a posteriore-anteriore (PA)). Non erano disponibili ulteriori informazioni cliniche. Per nodule/mass e pneumothorax, le possibili etichette erano: "present", "absent" o "hedge" (che significa incerto se presente o assente). Per opacità e frattura, i possibili valori dell'etichetta erano solo "presente" o "assente".

Le etichette si trovano nella directory four_findings_expert_labels. In individual_readers.csv, ogni riga corrisponde all'etichetta per ciascuna delle quattro condizioni fornite da un singolo lettore per una singola immagine. Ogni ID immagine e il relativo risultato di classificazione vengono ripetuti in più righe (una riga per lettore). L'ID lettore viene fornito per il collegamento stabile tra le immagini. Un valore di cella YES significa "presente", NO significa "assente" e HEDGE significa "incerto".

In validation_labels.csv e test_labels.csv, i metadati forniti nell'ambito del set di dati di radiografie toraciche dell'NIH sono stati integrati con quattro colonne, una per l'etichetta assegnata per ciascuna delle quattro condizioni: frattura, pneumotorace, opacità dello spazio aereo e nodulo/massa. Il set di test contiene 1962 ID immagine univoci e il set di convalida 2412 ID immagine univoci, per un totale di 4374 immagini con etichette assegnate. Nelle colonne dell'etichetta di aggiudicazione vengono visualizzati solo YES e NO. Se manca un valore di colonna, l'immagine non è stata inclusa nell'insieme di immagini sottoposto ad aggiudicazione.

Quando utilizzi queste etichette, includi la seguente citazione:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Interpretazione di radiografie del torace mediante modelli di deep learning: valutazione mediante standard di riferimento giudicati da radiologi e valutazione aggiustata in base alla popolazione, Radiology, 2019.

Per saperne di più sulla licenza e sull'attribuzione del set di dati di radiografie toraciche dell'NIH, consulta la sezione Licenza e attribuzione sopra.

Tutte le etichette degli esperti per i risultati

Nel documento Scientific Reports, l'insieme di etichette si è concentrato su tutti e 14 i risultati pubblicati nel set di dati originale e come etichetta normale/anomala. L'insieme di etichette conteneva solo immagini del set di test. Queste immagini sono identiche a quelle incluse nella suddivisione del test Four Findings Expert Labels, limitata alle radiografie toraciche con vista PA (810 immagini su 1962).

Gli stessi cinque radiologi certificati dall'American Board of Radiology hanno esaminato in modo indipendente ogni immagine. A ogni radiologico è stato chiesto innanzitutto se l'immagine conteneva eventuali risultati clinici potenzialmente utili (etichetta normale/anomala) e, in caso affermativo, di selezionare quali delle 14 condizioni erano presenti. Le informazioni disponibili al momento della revisione da parte del radiologo includevano solo l'età del paziente e la visualizzazione dell'immagine (AP rispetto a PA). Non erano disponibili ulteriori informazioni cliniche.

Le etichette si trovano nella directory all_findings_expert_labels. In test_individual_readers.csv, ogni riga corrisponde alle etichette di un singolo radiologista per una singola immagine. Ciò significa che ogni ID immagine e ID paziente viene ripetuto in più righe (cinque righe per immagine, una riga per lettore). Ogni riga contiene anche un ID lettore per distinguere i radiologi. Poiché questo set contiene un totale di 810 immagini, test_individual_readers.csv contiene 4050 righe con 810 ID immagine univoci. test_individual_readers.csv contiene anche un totale di 19 colonne. Oltre all'ID immagine, all'ID paziente e all'ID lettore, è presente una colonna per normale/anomalo, una colonna per ciascuno dei 14 reperti e una colonna per Other che indica la presenza di altri reperti anomali (diversi dai 14 specificati). Un valore della cella YES indica "presente" e NO indica "assente".

test_labels.csv contiene le etichette di riferimento utilizzate per valutare il sistema di deep learning nel documento Scientific Reports. Ogni riga contiene le etichette dei dati di fatto per un singolo ID immagine e ogni ID immagine appare solo in una riga, per un totale di 810 righe. test_labels.csv ha le stesse colonne di test_individual_readers.csv, ma senza una colonna "ID lettore". Per ottenere queste etichette, tre dei cinque radiologi che hanno etichettato questo insieme sono stati scelti a caso come "radiologi basati su dati empirici reali" (gli altri due sono stati utilizzati come punti di confronto). Questi "radiologi di riferimento" hanno ID lettore "4343882785", "4343883593" e "4343883996". È stato utilizzato un voto a maggioranza per determinare l'etichetta finale per l'etichetta normale/anomala e l'etichetta finale per ogni singolo reperto. L'etichetta finale per la colonna Other è stata determinata come YES se la maggioranza dei radiologi ha selezionato la presenza di un reperto diverso dai 14 o se la maggioranza dei radiologi ha indicato che l'immagine era anomala, ma nessun singolo reperto è stato indicato dalla maggioranza dei radiologi come presente.

Quando utilizzi queste etichette, includi la seguente citazione:

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2

Per ulteriori informazioni sulla licenza e sull'attribuzione del set di dati di radiografie toraciche dell'NIH, consulta la sezione Licenza e attribuzione.