NIH-Dataset von Röntgenaufnahmen des Brustkorbs

Das NIH-Dataset von Röntgenaufnahmen des Brustkorbs besteht aus 100.000 de-identifizierten Röntgenaufnahmen des Brustkorbs. Die Bilder liegen im PNG-Format vor.

Die Daten werden vom NIH Clinical Center bereitgestellt und sind auf der NIH-Download-Website unter https://nihcc.app.box.com/v/ChestXray-NIHCC verfügbar.

Sie können auch über Google Cloud (GCP) auf die Daten zugreifen, wie unter Google Cloud-Datenzugriff beschrieben.

Lizenz und Quellenangabe

Es gibt keine Einschränkungen bei der Verwendung der NIH-Röntgenaufnahmen des Brustkorbs. Für das Dataset gelten jedoch die folgenden Anforderungen zur Quellenangabe:

  • Geben Sie einen Link zur NIH-Download-Website an: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Fügen Sie dem CVPR-Artikel 2017 folgenden Vermerk hinzu:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Geben Sie an, dass das NIH Clinical Center der Datenanbieter ist.

Google Cloud-Datenzugriff

Sie können die NIH-Röntgenufnahmen des Brustkorbs über Cloud Storage, BigQuery oder die Cloud Healthcare API abrufen.

cl

Die NIH-Daten zu Röntgenaufnahmen des Brustkorb sind im folgenden Cloud Storage-Bucket verfügbar:

gs://gcs-public-data--healthcare-nih-chest-xray

Rufen Sie das NIH-Dataset von Röntgenaufnahmen des Brustkorbs in Cloud Storage auf.

Der Bucket enthält Pfade zu den ursprünglichen PNG-Dateien sowie DICOM-Instanzen:

PNG (von NIH bereitgestellt):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (von Google bereitgestellt):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Der Cloud Storage-Bucket verwendet für die Abrechnung das Modell "Anforderer bezahlt". Ihrem Google Cloud-Projekt werden die Kosten für den Zugriff auf die NIH-Daten in Rechnung gestellt. Weitere Informationen finden Sie unter Sender bezahlt.

BigQuery

Die NIH-Daten zu Röntgenaufnahmen des Brustkorb sind im Google Cloud-Projekt chc-nih-chest-xray in BigQuery verfügbar.

Zum NIH-Dataset mit Röntgenaufnahmen des Brustkorbs in BigQuery

Informationen zum Zugriff auf öffentliche Daten in BigQuery finden Sie unter Öffentliche BigQuery-Datasets.

Cloud Healthcare API

Die NIH-Daten zu Röntgenaufnahmen des Brustkorb sind in der folgenden DICOM-Speicherhierarchie in der Cloud Healthcare API verfügbar:

Projekt:chc-nih-chest-xray
Dataset: nih-chest-xray
DICOM-Speicher: nih-chest-xray

Füllen Sie dieses Formular aus, um Zugriff auf das NIH-Dataset mit Röntgenaufnahmen des Brustkorbs zu erhalten.

Zum NIH-Dataset von Röntgenaufnahmen des Brustkorbs in der Cloud Healthcare API

Weitere Informationen finden Sie in der DICOM-Übersicht und unter DICOMweb-Standard verwenden.

Betrachter von Daten

Sie können auch die in die Cloud Healthcare API integrierten Viewer verwenden:

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Zusätzliche Labels

Im folgenden Cloud Storage-Bucket sind zusätzliche Labels für die NIH-Daten zu Röntgenaufnahmen des Brustkorb verfügbar:

gs://gcs-public-data--healthcare-nih-chest-xray-labels

Zum NIH-Dataset von Röntgenaufnahmen des Brustkorb in Cloud Storage

Weitere Informationen zu diesen Labels finden Sie in unserem Whitepaper in Radiologie.

So wurden diese Labels erstellt

Die endgültigen Labels für jedes Bild wurden nach einer Prüfung durch drei Radiologen zugewiesen. Jedes Bild wurde unabhängig von drei Radiologen überprüft. Für das Test-Dataset wurden für jedes Bild Radiologen nach dem Zufallsprinzip aus einer Kohorte von 11 nach American Air of Airology zertifizierten Radiologen ausgewählt. Für das Validierungs-Dataset wurden die drei Radiologen aus einer Kohorte von 13 Personen ausgewählt, darunter zertifizierte Radiologen und Radiologieassistenten.

Wenn sich alle Prüfer nach der ersten Prüfung einig waren, wurde dieses Label endgültig. Bilder mit abweichenden Labels wurden zur weiteren Prüfung zurückgegeben. Anonyme Labels und Hinweise aus den vorherigen Runden waren auch bei jeder wiederholten Prüfung verfügbar. Die Prüfung wurde bis zur Übereinstimmung bzw. bis zu fünf Runden fortgesetzt. Für die kleine Anzahl der Bilder, für die kein Konsens erreicht wurde, wurde das am meisten gewählte Label verwendet.

Die Informationen zum Zeitpunkt der Prüfung umfassten nur das Alter des Patienten und die Bildansicht (AP im Vergleich zu PA). Es waren keine weiteren Informationen verfügbar. Die möglichen Labels für Knoten/Masse und Pneumothorax waren: "vorhanden", "nicht vorhanden" oder "Absicherung" (d. h. unsicher, ob vorhanden oder nicht vorhanden). Bei Verschattung und Fraktur waren die möglichen Labelwerte nur "vorhanden" oder "nicht vorhanden".

Verwendungsweise dieser Labels

In der CSV-Datei mit dem Titel individual_readers.csv entspricht jede Zeile dem Label für jede der vier Bedingungen, die von einem einzelnen Prüfer für ein einzelnes Bild bereitgestellt werden. Dies bedeutet, dass jede Bild-ID und das entsprechende Prüfergebnis in mehreren Zeilen wiederholt wird (eine Zeile pro Leser). Die Prüfer-ID dient zur stabilen Verknüpfung von Bildern. Der Wert "YES" bedeutet "vorhanden", "NO" bedeutet "nicht vorhanden" und "HEDGE" bedeutet "unsicher".

In den CSVs validation_labels.csv und test_labels.csv wurden die im Teil des NIH-Datasets von Röntgenaufnahmen des Brustkorbs bereitgestellten Metadaten um vier Spalten erweitert, eine für das Prüflabel für jede der vier Bedingungen. "Fraktur", "Pneumothorax", "Luftraumverschattung" und "Knoten/Masse". Das Test-Dataset enthält 1.962 eindeutige Bild-IDs und 2.412 eindeutige Bild-IDs im Validierungs-Dataset, sodass insgesamt 4.374 Bilder mit Prüflabels vorhanden sind. In den Spalten der Prüflabels wird nur YES oder NO angezeigt. Wenn ein Spaltenwert fehlt, wurde dieses Bild nicht in das Dataset geprüfter Bilder aufgenommen.

Wenn Sie diese Labels verwenden, fügen Sie folgenden Vermerk hinzu:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

Weitere Informationen zur Lizenz und Quellenangabe des NIH-Datasets von Röntgenaufnahmen des Brustkorbs finden Sie oben im Abschnitt Lizenz und Quellenangabe.

Gründe für die Verwendung dieser Labels

Die Verwendung eines einzelnen Prüfers oder eines Mehrheitsprinzips über mehrere Prüfer kann zu Fehlern oder Inkonsistenzen in den resultierenden Labels führen, die für die Modellentwicklung und -bewertung verwendet werden. Dies kann wiederum zu weniger verlässlichen Schätzungen der Modellleistung führen.

Wenn beispielsweise nur einer von drei Prüfern ein problematisches Ergebnis erkennt, wird es durch den Ansatz der Mehrheitsentscheidung überstimmt. In diesem Fall wäre das Modell nicht nur in seiner Fähigkeit eingeschränkt, ähnliche Ergebnisse (ohne Trainingsdaten) zu erkennen, sondern auch die Bewertungsergebnisse würden diese Fehler nicht widerspiegeln (falscher Referenzstandard), wodurch die Genauigkeit des Modells fälschlicherweise erhöht würde. Die Prüfung durch Experten ist ein strengerer Ansatz, der zu einer besseren Modellentwicklung und -bewertung führen kann.