set di dati a raggi X Chest del NIH

Il set di dati a raggi X Chest del NIH è costituito da 100.000 immagini anonimizzate di raggi X del torace. Le immagini sono in formato PNG.

I dati sono forniti dal NIH Clinical Center e sono disponibili tramite il sito di download del NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

Puoi anche accedere ai dati tramite Google Cloud, come descritto in Accesso ai dati di Google Cloud.

Licenza e attribuzione

Non sono previste limitazioni all'uso delle immagini a raggi X del torace del NIH. Tuttavia, il set di dati ha i seguenti requisiti di attribuzione:

  • Fornisci un link al sito di download del NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Includi una citazione all'articolo del CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Deakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, 2-316, pag. 341

  • Riconoscere che il NIH Clinical Center è il fornitore di dati

Accesso ai dati di Google Cloud

Puoi ottenere le immagini a raggi X torace del NIH da Cloud Storage, BigQuery o utilizzando l'API Cloud Healthcare.

Cloud Storage

I dati radiografici del NIH sono disponibili nel seguente bucket Cloud Storage:

gs://gcs-public-data--healthcare-nih-chest-xray

Vai al set di dati a raggi X toracici del NIH in Cloud Storage

Il bucket include i percorsi dei file PNG originali, nonché le istanze DICOM:

PNG (fornito dal NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (fornito da Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Il bucket Cloud Storage utilizza il modello "Pagamenti a carico del richiedente" per la fatturazione. Al tuo progetto Google Cloud verranno addebitati i costi associati all'accesso ai dati del NIH. Per ulteriori informazioni, consulta la sezione Pagamenti a carico del richiedente.

BigQuery

I dati radiografici del NIH sono disponibili nel progetto chc-nih-chest-xray Google Cloud in BigQuery.

Vai al set di dati a raggi X toracici del NIH in BigQuery

Per informazioni sull'accesso ai dati pubblici in BigQuery, consulta Set di dati pubblici BigQuery.

API Cloud Healthcare

I dati radiografici del NIH sono disponibili nella seguente gerarchia degli archivi DICOM nell'API Cloud Healthcare:

Progetto: chc-nih-chest-xray
Set di dati: nih-chest-xray
Archivio DICOM: nih-chest-xray

Per richiedere l'accesso al set di dati a raggi X toraciche del NIH, compila questo modulo.

Vai al set di dati a raggi X toracico del NIH nell'API Cloud Healthcare

Per ulteriori informazioni, consulta la panoramica di DICOM e l'articolo sull'utilizzo dello standard DICOMweb.

Visualizzatori di dati

Puoi anche utilizzare i visualizzatori integrati con l'API Cloud Healthcare:

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Etichette aggiuntive

Per accedere alle etichette degli esperti per un sottoinsieme del set di dati ChestX-ray14 NIH, compila il modulo seguente. Dopo aver completato il modulo, puoi scaricare le etichette.

Vai al modulo Google per scaricare le etichette

Le etichette sono state raccolte nell'ambito di due studi indipendenti e sono descritte nei seguenti articoli:

Esistono due serie di etichette, ciascuna associata a uno degli studi. Il primo set di etichette è associato allo studio pubblicato su Radiology e si concentra su quattro rilevamenti a raggi X del torace: opacità dello spazio aereo, pneumotorace, nodulo/massa e frattura. Il secondo set di etichette è associato allo studio pubblicato su Scientific Reports e include tutti i 14 risultati rilasciati nel set di dati originale e un'etichetta normale/anormale.

Quattro etichette di esperti sui risultati

Nell'articolo Radiologia, il set di etichette si è concentrato su quattro risultati (opacità dello spazio aereo, pneumotorace, nodulo/massa e frattura) e comprendeva sia i set di convalida che di test. Le etichette finali di ogni immagine sono state assegnate tramite revisione aggiudicata da tre radiologi. Ogni immagine è stata prima esaminata in modo indipendente da tre radiologi. Per il set di test, per ogni immagine sono stati selezionati radiologi in modo casuale da una coorte di 11 radiologi certificati dall'American Board of Radiology. Per il set di convalida, i tre radiologi sono stati selezionati da una coorte di 13 individui, tra cui radiologi certificati dall'istituto e residenti in radiologia.

Se tutti i lettori erano d'accordo dopo la revisione iniziale, l'etichetta è diventata definitiva. Per le immagini con disaccordi tra le etichette, sono state restituite le immagini per un'ulteriore revisione. Durante ogni revisione iterativa erano disponibili anche etichette anonime ed eventuali note dei turni precedenti. L'aggiudicazione è proseguita fino al consenso o fino a un massimo di cinque round. Per il numero ridotto di immagini per le quali non è stato raggiunto il consenso, è stata utilizzata l'etichetta di voto di maggioranza.

Le informazioni disponibili al momento della revisione del radiologo includevano solo l'età del paziente e la visualizzazione dell'immagine (anteriore-posteriore (AP) rispetto a posteriore-anteriore (PA)). Non erano disponibili informazioni cliniche aggiuntive. Per nodulo/massa e pneumotorace, le possibili etichette erano: "presente", "assente" o "siperice" (ovvero incerta se presente o assente). Per quanto riguarda l'opacità e la frattura, i possibili valori delle etichette erano solo "presente" o "assente".

Le etichette si trovano nella directory four_findings_expert_labels. In individual_readers.csv, ogni riga corrisponde all'etichetta per ognuna delle quattro condizioni fornite da un singolo lettore per una singola immagine. Ogni ID immagine e il corrispondente risultato della aggiudicazione vengono ripetuti su più righe (una riga per lettore). L'ID lettore viene fornito per un collegamento stabile tra le immagini. Il valore della cella YES significa "presente", NO significa "assente" e HEDGE significa "incerto".

In validation_labels.csv e test_labels.csv, i metadati forniti nell'ambito del set di dati a raggi X del NIH Chest sono stati integrati con quattro colonne, una per l'etichetta aggiudicata per ognuna delle quattro condizioni: frattura, pneumotorace, opacità dello spazio aereo e nodulo/massa. Nel set di test sono presenti 1962 ID immagine univoci e 2412 ID immagine univoci nel set di convalida, per un totale di 4374 immagini con etichette assegnate. Nelle colonne dell'etichetta dell'aggiudicazione vengono visualizzati solo YES e NO. Se manca un valore della colonna, l'immagine non è stata inclusa nel set di immagini aggiudicato.

Quando utilizzi queste etichette, includi la seguente citazione:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph InterpretationUsing Deep Learning Models: AssessmentUsing Radiologist Adjudicated Reference Standards and Popolazione-Adjusted Evaluation, Radiology, 2019.

Per ulteriori informazioni sulla licenza e sull'attribuzione del set di dati a raggi X del NIH Chest, consulta la sezione Licenza e attribuzione sopra.

Tutte le etichette degli esperti sui risultati

Nell'articolo Scientific Reports, il set di etichette si è concentrato su tutti e 14 i risultati rilasciati nel set di dati originale e come etichetta normale/anomala. Il set di etichette conteneva solo immagini del set di test. Queste immagini sono identiche a quelle incluse nella suddivisione del test Four Findings Expert Labels, limitate ai raggi X del torace con vista AP (810 immagini su 1962).

Gli stessi cinque radiologi certificati dall'American Board of Radiology hanno esaminato in modo indipendente ogni immagine. A ogni radiologo è stato prima chiesto se l'immagine conteneva un risultato clinico potenzialmente attuabile (etichetta normale/anomala) e, in tal caso, di selezionare quali delle 14 condizioni erano presenti. Le informazioni disponibili al momento della revisione radiologica includevano solo l'età del paziente e la visualizzazione dell'immagine (AP rispetto ad AP). Non erano disponibili informazioni cliniche aggiuntive.

Le etichette si trovano nella directory all_findings_expert_labels. In test_individual_readers.csv, ogni riga corrisponde a una singola etichetta di un radiologo per una singola immagine. Ciò significa che ogni ID immagine e ID paziente viene ripetuto su più righe (cinque righe per immagine, una riga per lettore). Ogni riga contiene anche un ID lettore per distinguere i radiologi. Poiché questo set contiene un totale di 810 immagini, test_individual_readers.csv contiene 4050 righe con 810 ID immagine univoci. test_individual_readers.csv contiene anche un totale di 19 colonne. Oltre all'ID immagine, all'ID paziente e all'ID lettore, è disponibile una colonna per valori normali/anormali, una colonna per ognuno dei 14 risultati e una colonna per Other che indica la presenza di altri risultati anomali (al di fuori dei 14 specificati). Un valore di cella YES significa "presente" e NO significa "assente".

test_labels.csv contiene le etichette basate su dati empirici reali utilizzate per valutare il sistema di deep learning nell'articolo Scientific Reports. Ogni riga contiene le etichette basate su dati empirici reali per un singolo ID immagine e ogni ID immagine compare solo in una singola riga, per un totale di 810 righe. test_labels.csv ha le stesse colonne di test_individual_readers.csv, ma senza una colonna "ID lettore". Per ottenere queste etichette, tre dei cinque radiologi che hanno etichettato questo set sono stati scelti a caso come "radiologi basati su dati empirici reali" (gli altri due sono stati utilizzati come punti di confronto). Questi "radiologi con dati empirici reali" hanno ID lettore "4343882785", "4343883593" e "4343883996". È stato utilizzato un voto di maggioranza per determinare l'etichetta finale per l'etichetta normale/anomala e l'etichetta finale per ogni risultato specifico. L'etichetta finale per la colonna Other è stata determinata essere YES se la maggioranza dei radiologi ha selezionato un risultato al di fuori dei 14 o se la maggioranza dei radiologi ha indicato che l'immagine era anormale, ma nessun risultato singolo aveva indicato la presenza di un risultato al di fuori dei 14.

Quando utilizzi queste etichette, includi la seguente citazione:

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19,1-19-19.

Per ulteriori informazioni sulla licenza e sull'attribuzione del set di dati a raggi X Chest del NIH, vedi Licenza e attribuzione.