NIH-Dataset von Röntgenaufnahmen des Brustkorbs

Das NIH-Dataset von Röntgenaufnahmen besteht aus 100.000 anonymisierten Bildern von Röntgenaufnahmen der Brust. Die Bilder sind im PNG-Format.

Die Daten werden vom NIH Clinical Center bereitgestellt und sind auf der NIH-Download-Website unter https://nihcc.app.box.com/v/ChestXray-NIHCC verfügbar.

Sie können auch über Google Cloud (GCP) auf die Daten zugreifen, wie unter Google Cloud-Datenzugriff beschrieben.

Lizenz und Quellenangabe

Es gibt keine Einschränkungen bei der Verwendung der NIH-Röntgenaufnahmen des Brustkorbs. Für das Dataset gelten jedoch die folgenden Anforderungen zur Quellenangabe:

  • Geben Sie einen Link zur NIH-Download-Website an: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Fügen Sie dem CVPR-Artikel 2017 folgenden Vermerk hinzu:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Geben Sie an, dass das NIH Clinical Center der Datenanbieter ist.

Google Cloud-Datenzugriff

Sie können die NIH-Röntgenufnahmen des Brustkorbs über Cloud Storage, BigQuery oder die Cloud Healthcare API abrufen.

cl

Die NIH-Daten zu Röntgenaufnahmen des Brustkorb sind im folgenden Cloud Storage-Bucket verfügbar:

gs://gcs-public-data--healthcare-nih-chest-xray

Rufen Sie das NIH-Dataset von Röntgenaufnahmen des Brustkorbs in Cloud Storage auf.

Der Bucket enthält Pfade zu den ursprünglichen PNG-Dateien sowie DICOM-Instanzen:

PNG (von NIH bereitgestellt):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (von Google bereitgestellt):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Der Cloud Storage-Bucket verwendet für die Abrechnung das Modell "Anforderer bezahlt". Ihrem Google Cloud-Projekt werden die Kosten für den Zugriff auf die NIH-Daten in Rechnung gestellt. Weitere Informationen finden Sie unter Anforderer bezahlt.

BigQuery

Die NIH-Daten zu Röntgenaufnahmen des Brustkorb sind im Google Cloud-Projekt chc-nih-chest-xray in BigQuery verfügbar.

Zum NIH-Dataset mit Röntgenaufnahmen des Brustkorbs in BigQuery

Informationen zum Zugriff auf öffentliche Daten in BigQuery finden Sie unter Öffentliche BigQuery-Datasets.

Cloud Healthcare API

Die NIH-Daten zu Röntgenaufnahmen des Brustkorb sind in der folgenden DICOM-Speicherhierarchie in der Cloud Healthcare API verfügbar:

Projekt: chc-nih-chest-xray
Dataset: nih-chest-xray
DICOM-Speicher: nih-chest-xray

Füllen Sie dieses Formular aus, um Zugriff auf das NIH-Dataset mit Röntgenaufnahmen des Brustkorbs zu erhalten.

Zum X-Ray-Ray-Dataset von NIH in der Cloud Healthcare API

Weitere Informationen finden Sie in der DICOM-Übersicht und unter DICOMweb-Standard verwenden.

Betrachter von Daten

Sie können auch die in die Cloud Healthcare API integrierten Viewer verwenden:

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Zusätzliche Labels

Füllen Sie das folgende Formular aus, um auf Expertenlabels für einen Teil des Datasets "NIH ChestX-ray14" zuzugreifen. Nachdem Sie das Formular ausgefüllt haben, können Sie die Labels herunterladen.

Google-Formular aufrufen, um die Labels abzurufen

Die Labels wurden im Rahmen von zwei unabhängigen Studien erfasst und werden in den folgenden Artikeln beschrieben:

Es gibt zwei Gruppen von Labels, die jeweils mit einer der Studien verknüpft sind. Der erste Satz von Labels ist mit der in Radiologie veröffentlichten Studie verknüpft und konzentriert sich auf vier Ergebnisse aus Röntgenaufnahmen des Brustkorbs: Luftraumopazität, Pneumothorax, Knoten/Masse und Fraktur. Der zweite Satz von Labels ist verknüpft mit der in wissenschaftlichen Berichten veröffentlichten Studie und umfasst alle 14 Ergebnisse, die im ursprünglichen Dataset veröffentlicht sind und ein Label "normal/abnormal".

Expertenlabels für vier Ergebnisse

Im Radiologie-Artikel beziehen sich die Labels auf vier Ergebnisse (Luftraumopazität, Pneumothorax, Knoten/Masse und Fraktur) und umfassten sowohl die Validierungs- als auch Test-Datasets. Die endgültigen Labels für jedes Bild wurden nach einer Prüfung durch drei Radiologen zugewiesen. Jedes Bild wurde unabhängig von drei Radiologen überprüft. Für das Test-Dataset wurden für jedes Bild Radiologen nach dem Zufallsprinzip aus einer Kohorte von 11 nach American Air of Airology zertifizierten Radiologen ausgewählt. Für das Validierungs-Dataset wurden die drei Radiologen aus einer Kohorte von 13 Personen ausgewählt, darunter zertifizierte Radiologen und Radiologieassistenten.

Wenn sich alle Prüfer nach der ersten Prüfung einig waren, wurde dieses Label endgültig. Bilder mit abweichenden Labels wurden zur weiteren Prüfung zurückgegeben. Anonyme Labels und Hinweise aus den vorherigen Runden waren auch bei jeder wiederholten Prüfung verfügbar. Die Prüfung wurde bis zur Übereinstimmung bzw. bis zu fünf Runden fortgesetzt. Für die kleine Anzahl der Bilder, für die kein Konsens erreicht wurde, wurde das am meisten gewählte Label verwendet.

Die zum Zeitpunkt der Untersuchung durch den Radiologen verfügbaren Informationen umfassten nur das Patientenalter und die Bildansicht (anterior-posterior (AP) bzw. posterior-anterior (PA)). Es waren keine zusätzlichen klinischen Informationen verfügbar. Für Knoten/Masse und Pneumothorax waren die möglichen Label: "vorhanden", "nicht vorhanden" oder "hedge" (d. h. unsicher, ob vorhanden oder nicht vorhanden). Für Opazität und Fraktur waren die möglichen Labelwerte nur "vorhanden" oder "nicht vorhanden".

Die Labels befinden sich im Verzeichnis four_findings_expert_labels. In individual_readers.csv entspricht jede Zeile dem Label für jede der vier Bedingungen, die von einem einzelnen Leser für ein einzelnes Bild bereitgestellt werden. Jede Bild-ID und das entsprechende Ergebnis werden in mehreren Zeilen wiederholt (eine Zeile pro Leser). Die Leser-ID wird für eine stabile Verknüpfung zwischen Bildern bereitgestellt. Ein Zellenwert von YES bedeutet "vorhanden", NO bedeutet "nicht vorhanden" und HEDGE bedeutet "unsicher".

In validation_labels.csv und test_labels.csv wurden die im Teil des NIH-Datasets von Röntgenaufnahmen des Brustkorbs bereitgestellten Metadaten um vier Spalten erweitert, eine für das Prüflabel für jede der vier Bedingungen "Fraktur", "Pneumothorax", "Luftraumopazität" und "Knoten/Masse". Das Test-Dataset enthält 1.962 eindeutige Bild-IDs und 2.412 eindeutige Bild-IDs im Validierungs-Dataset, sodass insgesamt 4.374 Bilder mit Prüflabels vorhanden sind. In den Spalten der Prüflabels wird nur YES und NO angezeigt. Wenn ein Spaltenwert fehlt, wurde das Bild nicht in das Dataset geprüfter Bilder aufgenommen.

Wenn Sie diese Labels verwenden, fügen Sie folgenden Vermerk hinzu:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

Weitere Informationen zur Lizenz und Quellenangabe des NIH-Datasets von Röntgenaufnahmen des Brustkorbs finden Sie oben im Abschnitt Lizenz und Quellenangabe.

Expertenlabels für alle Ergebnisse

Im Artikel Wissenschaftliche Berichtes beziehen sich die Labels auf alle 14 Ergebnisse, die im ursprünglichen Dataset veröffentlicht wurden, und als Label "normal/abnormal". Der Satz von Labels enthielt nur Bilder aus dem Test-Dataset. Diese Bilder sind mit den Bildern in der Testaufteilung Four Findings Expert Labels identisch und auf Röntgenaufnahmen des Brustkorbs mit PA-Ansicht (810 Bilder von 1.962 Bildern) beschränkt.

Dieselben fünf Radiologen, die vom American Board of Radiology zertifiziert wurden, haben unabhängig voneinander jedes Bild überprüft. Jeder Radiologe wurde zuerst gefragt, ob das Bild ein potenziell umsetzbares klinisches Ergebnis enthält (Label "normal/abnormal") und wenn ja, welche der 14 Zustände vorhanden waren. Die zum Zeitpunkt der Untersuchung durch den Radiologen verfügbaren Informationen umfassten nur das Patientenalter und die Bildansicht (AP bzw. PA). Es waren keine zusätzlichen klinischen Informationen verfügbar.

Die Labels befinden sich im Verzeichnis all_findings_expert_labels. In test_individual_readers.csv entspricht jede Zeile den Labels eines einzelnen Radiologen für ein einzelnes Bild. Das bedeutet, dass jede Bild-ID und Patienten-ID in mehreren Zeilen wiederholt werden (fünf Zeilen pro Bild, eine Zeile pro Leser). Jede Zeile enthält außerdem eine Leser-ID, damit die Radiologen unterschieden werden können. Da dieses Dataset insgesamt 810 Bilder enthält, enthält test_individual_readers.csv 4.050 Zeilen mit 810 eindeutigen Bild-IDs. test_individual_readers.csv enthält insgesamt 19 Spalten. Neben der Bild-ID, der Patienten-ID und der Leser-ID gibt es eine Spalte für normal/abnormal, eine Spalte für jedes der 14 Ergebnisse und eine Spalte für Other, die angibt, dass andere, abnormale Ergebnisse vorhanden sind (über die angegebenen 14 hinaus). Ein Zellenwert von YES bedeutet "vorhanden" und NO bedeutet "nicht vorhanden".

test_labels.csv enthält die Ground-Truth-Labels, mit denen das Deep-Learning-System im Artikel Wissenschaftliche Berichte evaluiert wurde. Jede Zeile enthält die Ground-Truth-Labels für eine einzelne Bild-ID. Jede Bild-ID wird nur in einer einzelnen Zeile angezeigt, für insgesamt 810 Zeilen. test_labels.csv hat dieselben Spalten wie test_individual_readers.csv, aber ohne die Spalte "Leser-ID". Um diese Labels zu erhalten, wurden drei der fünf Radiologen, die dieses Dataset mit Labels versehen haben, nach dem Zufallsprinzip als "Ground-Truth-Radiologen" ausgewählt (die beiden anderen wurden als Vergleichspunkte verwendet). Diese "Ground-Truth-Radiologen" haben die Leser-IDs "4343882785", "4343883593" und "4343883996". Es wurde eine Mehrheitsentscheidung verwendet, um das endgültige Label für das Label "normal/abnormal" und das endgültige Label für jedes bestimmte Ergebnis festzulegen. Das endgültige Label für die Spalte Other wurde als YES bestimmt, wenn die Mehrheit der Radiologen ausgewählt hat, dass ein Ergebnis außerhalb der 14 vorhanden war, oder wenn die Mehrheit der Radiologen angaben, dass das Bild abnormal war, aber kein Ergebnis von der Mehrheit der Radiologen als "vorhanden" markiert wurde.

Wenn Sie diese Labels verwenden, fügen Sie folgenden Vermerk hinzu:

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2

Weitere Informationen zur Lizenz und Quellenangabe des NIH-Dataset von Röntgenaufnahmen des Brustkorbs finden Sie unter Lizenz und Quellenangabe.