Set di dati per immagini toraciche a raggi X NIH

Il set di dati NIH Chest X-ray è costituito da 100.000 immagini anonimizzate di raggi X del torace. Le immagini sono in PNG formato.

I dati sono forniti dal NIH Clinical Center e sono disponibili tramite il sito di download del NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

Puoi anche accedere ai dati tramite Google Cloud, come descritto in Accesso ai dati di Google Cloud.

Licenza e attribuzione

Non sono previste limitazioni per l'utilizzo delle immagini toraciche a raggi X degli NIH. Tuttavia, del set di dati presenta i seguenti requisiti di attribuzione:

  • Fornisci un link al sito di download del NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Includi una citazione all'articolo del CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Riconoscere che il Centro clinico NIH è il fornitore di dati

Accesso ai dati di Google Cloud

Puoi ottenere le immagini a raggi X del torace NIH da Cloud Storage, BigQuery o tramite l'API Cloud Healthcare.

Cloud Storage

I dati delle radiazioni toraciche NIH sono disponibili nel seguente Cloud Storage del bucket:

gs://gcs-public-data--healthcare-nih-chest-xray

Vai al set di dati per immagini toraciche a raggi X NIH in Cloud Storage

Il bucket include i percorsi dei file PNG originali, nonché i percorsi DICOM di Compute Engine:

PNG (fornito da NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (fornito da Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Il bucket Cloud Storage utilizza "Pagamenti a carico del richiedente" modello per e configurare la fatturazione. Al tuo progetto Google Cloud verranno addebitati gli importi associati all'accesso ai dati dell'NIH. Per ulteriori informazioni, consulta la sezione Il richiedente paga.

BigQuery

I dati delle radiazioni toraciche del NIH sono disponibili nell'chc-nih-chest-xray progetto Google Cloud in BigQuery.

Vai al set di dati a raggi X Chest NIH in BigQuery

Per informazioni su come accedere ai dati pubblici in BigQuery, consulta Set di dati pubblici di BigQuery.

API Cloud Healthcare

I dati a raggi X del torace NIH sono disponibili nella seguente gerarchia di archivi DICOM in API Cloud Healthcare:

Progetto: chc-nih-chest-xray
Set di dati: nih-chest-xray
Negozio DICOM: nih-chest-xray

Per richiedere l'accesso al set di dati delle radiazioni toraciche NIH, completa questo modulo.

Vai al set di dati a raggi X Chest NIH nell'API Cloud Healthcare

Per ulteriori informazioni, consulta la panoramica del DICOM e l'articolo Utilizzo dello standard DICOMweb.

Visualizzatori di dati

Puoi anche utilizzare i visualizzatori integrati API Cloud Healthcare:

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Etichette aggiuntive

Per accedere alle etichette degli esperti per un sottoinsieme del set di dati NIH ChestX-ray14, completa il seguente modulo. Dopo aver compilato il modulo, puoi scaricare le etichette.

Vai al modulo Google per recuperare le etichette

Le etichette sono state raccolte nell'ambito di due studi indipendenti e sono descritte nei seguenti documenti:

Esistono due insiemi di etichette, ciascuno associato a uno degli studi. La il primo insieme di etichette è associato allo studio pubblicato su Radiology e si concentra su quattro risultati ottenuti tramite radiografia al torace: opacità dello spazio aereo, pneumotorace, nodulo/massa e frattura. Il secondo insieme di etichette è associato allo studio pubblicato su Scientific Reports e include tutti e 14 i risultati pubblicati nel set di dati originale, e un'etichetta normale/anomala.

Quattro etichette di esperti per i risultati

Nel articolo sulla radiologia, l'insieme di etichette si concentrava su quattro risultati (opacità dell'aria, pneumotorace, nodulo/massa e frattura) e includeva sia i set di convalida sia i set di test. Le etichette finali per ogni immagine sono state assegnate tramite revisione con decisione di tre radiologi. Ogni immagine è stata esaminata per la prima volta da tre radiologi in modo indipendente. Per il set di test, sono stati selezionati radiologi a caso per ciascuna immagine coorte di 11 radiologi certificati dall'American Board of Radiology. Per di convalida, i tre radiologi sono stati selezionati da una coorte di 13 privati, tra cui radiologi abilitati dall'ordine e residenti in radiologia.

Se tutti i lettori erano d'accordo dopo la revisione iniziale, l'etichetta diveniva definitiva. Le immagini con disaccordi sulle etichette sono state restituite per un'ulteriore revisione. Le etichette anonime e le eventuali note dei round precedenti erano disponibili anche durante ogni revisione iterativa. La valutazione è proseguita fino al consenso o fino a un massimo di cinque round. Per il numero ridotto di immagini per le quali non è stato raggiunto il consenso, è stata utilizzata l'etichetta del voto a maggioranza.

Le informazioni disponibili al momento della revisione del radiologo includevano solo l'età del paziente e la visualizzazione dell'immagine (anteriore-posteriore (AP) rispetto a posteriore-anteriore (PA)). Non erano disponibili ulteriori informazioni cliniche. Per noduli/massa e pneumotorace, le etichette possibili erano: "presente", "assente" o "siepe" (che significa incerta se presente o assente). Per opacità e frattura, la possibile etichetta erano solo "presenti" o "assente".

Le etichette si trovano nella directory four_findings_expert_labels. In individual_readers.csv, ogni riga corrisponde all'etichetta per ciascuna delle quattro condizioni fornite da un singolo lettore per una singola immagine. Ciascuna l'ID immagine e il risultato dell'aggiudicazione corrispondente ripetuto in più (una riga per lettore). L'ID lettore viene fornito per un collegamento stabile tra in formato Docker. Un valore di cella YES significa "presente", NO significa "assente" e HEDGE significa "incerto".

In validation_labels.csv e test_labels.csv, i metadati forniti come parte del NIH Chest x-ray set di dati è stato incrementato con quattro colonne, una per su ciascuna delle quattro condizioni: frattura, pneumotorace, opacità dello spazio aereo e nodulo/massa. Nel test sono presenti 1962 ID immagine univoci e 2.412 ID immagine univoci nel set di convalida per un totale di 4.374 immagini. con etichette aggiudicate. Solo YES e NO compaiono nell'etichetta di aggiudicazione colonne. Se manca un valore della colonna, l'immagine non è stata inclusa nel un insieme di immagini aggiudicato.

Quando utilizzi queste etichette, includi la seguente citazione:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Interpretazione di radiografie del torace mediante modelli di deep learning: valutazione mediante standard di riferimento giudicati da radiologi e valutazione aggiustata in base alla popolazione, Radiology, 2019.

Per ulteriori informazioni sulla licenza e sull'attribuzione del scrigno del NIH del set di dati a raggi X, consulta la sezione Licenza e attribuzione sopra.

Tutte le etichette degli esperti dei risultati

Nel documento Scientific Reports, l'insieme di etichette si è concentrato su tutti e 14 i risultati pubblicati nel set di dati originale e come etichetta normale/anomala. L'insieme di etichette conteneva solo immagini del set di test. Queste immagini sono identiche a quelle incluse nella suddivisione del test Four Findings Expert Labels, limitata alle radiografie toraciche con vista PA (810 immagini su 1962).

Lo stesso cinque membri del consiglio di amministrazione Ogni immagine è stata esaminata da radiologi certificati da radiologia. A ogni radiologico è stato chiesto innanzitutto se l'immagine conteneva eventuali risultati clinici potenzialmente utili (etichetta normale/anomala) e, in caso affermativo, di selezionare quali delle 14 condizioni erano presenti. Le informazioni disponibili al momento della revisione da parte del radiologo includevano solo l'età del paziente e la visualizzazione dell'immagine (AP rispetto a PA). Non erano disponibili ulteriori informazioni cliniche.

Le etichette si trovano nella directory all_findings_expert_labels. In test_individual_readers.csv, ogni riga corrisponde alle etichette di un singolo radiologista per una singola immagine. Ciò significa che ogni ID immagine e ID paziente viene ripetuto su più righe (cinque righe per immagine, una riga per lettore). Ogni riga contiene anche un ID lettore per distinguere i radiologi. Poiché questo set contiene un totale di 810 immagini, test_individual_readers.csv contiene 4050 righe con 810 ID immagine univoci. test_individual_readers.csv contiene anche un totale di 19 colonne. Inoltre, a ID immagine, ID paziente e ID lettore, c'è una colonna per i valori normale/anormale, per ciascuno dei 14 risultati e una colonna per Other che indica Sono presenti risultati anomali (al di fuori dei 14 specificati). Un valore della cella YES indica "presente" e NO indica "assente".

test_labels.csv contiene le etichette basate su dati empirici reali Valutare il sistema di deep learning nell'articolo Scientific Reports (Report scientifici). Ogni riga contiene le etichette dei dati di fatto per un singolo ID immagine e ogni ID immagine appare solo in una riga, per un totale di 810 righe. test_labels.csv ha le stesse colonne di test_individual_readers.csv, ma senza un "ID lettore" colonna. Per ottenere queste etichette, tre dei cinque radiologi che questo set è stato etichettato in modo casuale come "radiolo empirico empirico" (gli altri due sono stati usati come punti di confronto). Questi "radiologi di riferimento" hanno ID lettore "4343882785", "4343883593" e "4343883996". È stato utilizzato un voto a maggioranza per determinare l'etichetta finale per l'etichetta normale/anomala e l'etichetta finale per ogni singolo reperto. L'etichetta finale per la colonna Other è stato stabilito che è YES, se la maggioranza dei radiologi ha selezionato la presenza di un risultato esterno ai 14 partecipanti o se è stata i radiologi hanno indicato che l'immagine era anomala, ma nessun dato è stato rilevato era stata indicata dalla maggior parte dei radiologi.

Quando utilizzi queste etichette, includi la seguente citazione:

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos Alba P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2

Per ulteriori informazioni sulla licenza e sull'attribuzione del scrigno del NIH delle immagini a raggi X. Consulta Licenza e attribuzione.