Set data Sinar X-ray Dada NIH

Set data Sinar X Dada NIH terdiri dari 100.000 gambar sinar X dada yang telah dide-identifikasi. Gambar dalam format PNG.

Data ini disediakan oleh NIH Clinical Center dan tersedia melalui situs download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

Anda juga dapat mengakses data melalui Google Cloud, seperti yang dijelaskan dalam Akses data Google Cloud.

Lisensi dan atribusi

Tidak ada batasan penggunaan gambar rontgen dada NIH. Namun, set data memiliki persyaratan atribusi berikut:

  • Berikan link ke situs download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Sertakan kutipan ke makalah CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Mengonfirmasi bahwa NIH Clinical Center adalah penyedia data

Akses data Google Cloud

Anda bisa mendapatkan gambar rontgen dada NIH dari Cloud Storage, BigQuery, atau menggunakan Cloud Healthcare API.

Cloud Storage

Data X-ray dada NIH tersedia di bucket Cloud Storage berikut:

gs://gcs-public-data--healthcare-nih-chest-xray

Buka set data sinar-x dada NIH di Cloud Storage

Bucket menyertakan jalur ke file PNG asli, serta ke instance DICOM:

PNG (disediakan oleh NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (disediakan oleh Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Bucket Cloud Storage menggunakan model "Pemohon Membayar" untuk penagihan. Project Google Cloud Anda akan ditagih untuk tagihan yang terkait dengan akses ke data NIH. Untuk mengetahui informasi selengkapnya, lihat Pemohon Membayar.

BigQuery

Data X-ray dada NIH tersedia di project Google Cloud chc-nih-chest-xray di BigQuery.

Buka set data sinar-x dada NIH di BigQuery

Untuk informasi tentang cara mengakses data publik di BigQuery, baca Set data publik BigQuery.

Cloud Healthcare API

Data sinar-x dada NIH tersedia dalam hierarki penyimpanan DICOM berikut di Cloud Healthcare API:

Project: chc-nih-chest-xray
Dataset: nih-chest-xray
Penyimpanan DICOM: nih-chest-xray

Untuk meminta akses ke set data sinar-x dada NIH, lengkapi formulir ini.

Buka set data sinar-x dada NIH di Cloud Healthcare API

Untuk mengetahui informasi selengkapnya, lihat Ringkasan DICOM dan Menggunakan Standar DICOMweb.

Pelihat data

Anda juga dapat menggunakan penampil yang terintegrasi dengan Cloud Healthcare API:

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Label Tambahan

Untuk mengakses label pakar untuk subset set data NIH ChestX-ray14, isi formulir berikut. Setelah menyelesaikan formulir, Anda dapat mendownload label.

Buka Google Formulir untuk mendapatkan label

Label dikumpulkan sebagai bagian dari dua studi independen, dan dijelaskan dalam makalah berikut:

Ada dua kumpulan label, masing-masing terkait dengan salah satu studi. Kumpulan label pertama dikaitkan dengan studi yang dipublikasikan di Radiology dan berfokus pada empat temuan sinar X dada: opasitas ruang udara, pneumothorax, nodul/massa, dan fraktur. Kumpulan label kedua dikaitkan dengan studi yang dipublikasikan di Scientific Reports dan mencakup 14 temuan yang dirilis dalam set data asli, dan label normal/abnormal.

Empat label pakar temuan

Dalam makalah Radiologi, kumpulan label berfokus pada empat temuan (opasitas ruang udara, pneumothorax, nodul/massa, dan fraktur) serta mencakup set validasi dan pengujian. Label akhir untuk setiap gambar ditetapkan melalui peninjauan yang diputuskan oleh tiga radiolog. Setiap gambar pertama kali ditinjau secara independen oleh tiga radiologis. Untuk set pengujian, radiologis dipilih secara acak untuk setiap gambar dari kohor yang terdiri dari 11 radiologis bersertifikasi American Board of Radiology. Untuk set validasi, tiga radiologis dipilih dari kelompok yang terdiri dari 13 individu, termasuk radiologis bersertifikasi dan residen radiologi.

Jika semua pembaca setuju setelah peninjauan awal, label tersebut akan menjadi final. Untuk gambar dengan ketidaksesuaian label, gambar akan ditampilkan untuk peninjauan tambahan. Label anonim dan catatan apa pun dari putaran sebelumnya juga tersedia selama setiap peninjauan iteratif. Penyelesaian dilanjutkan hingga konsensus, atau hingga maksimum lima putaran. Untuk sejumlah kecil gambar yang konsensusnya tidak tercapai, label suara mayoritas digunakan.

Informasi yang tersedia pada saat peninjauan radiologis hanya mencakup usia pasien dan tampilan gambar (anterior-posterior (AP) versus posterior-anterior (PA)). Informasi klinis tambahan tidak tersedia. Untuk nodul/massa dan pneumotoraks, kemungkinan labelnya adalah: "ada", "tidak ada", atau "hedge" (yang berarti tidak pasti apakah ada atau tidak). Untuk opasitas dan fraktur, nilai label yang mungkin hanya "ada" atau "tidak ada".

Label berada di direktori four_findings_expert_labels. Di individual_readers.csv, setiap baris sesuai dengan label untuk masing-masing dari empat kondisi yang disediakan oleh satu pembaca untuk satu gambar. Setiap ID gambar dan hasil adjudikasi yang sesuai diulang di beberapa baris (satu baris per pembaca). ID pembaca disediakan untuk penautan yang stabil di seluruh gambar. Nilai sel YES berarti "ada", NO berarti "tidak ada", dan HEDGE berarti "tidak pasti".

Di validation_labels.csv dan test_labels.csv, metadata yang diberikan sebagai bagian dari set data X-ray Dada NIH telah ditambah dengan empat kolom, satu untuk label yang diputuskan untuk setiap dari empat kondisi: fraktur, pneumothorax, opasitas ruang udara, dan nodul/massa. Ada 1.962 ID gambar unik dalam set pengujian dan 2.412 ID gambar unik dalam set validasi dengan total 4.374 gambar dengan label yang diputuskan. Hanya YES dan NO yang muncul di kolom label adjudikasi. Jika nilai kolom tidak ada, gambar tidak disertakan dalam kumpulan gambar yang diputuskan.

Saat menggunakan label ini, sertakan kutipan berikut:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Penafsiran Radiograf Dada Menggunakan Model Deep Learning: Penilaian Menggunakan Standar Referensi yang Dipilih Radiolog dan Evaluasi dengan Penyesuaian Populasi, Radiologi, 2019.

Untuk mengetahui informasi selengkapnya tentang Lisensi dan Atribusi set data rontgen Dada NIH, lihat bagian Lisensi dan atribusi di atas.

Semua label pakar temuan

Dalam makalah Scientific Reports, kumpulan label berfokus pada 14 temuan yang dirilis dalam set data asli, dan sebagai label normal/abnormal. Kumpulan label hanya berisi gambar dari set pengujian. Gambar ini identik dengan gambar yang disertakan dalam pemisahan pengujian Four Findings Expert Labels, yang dibatasi untuk rontgen dada dengan tampilan PA (810 gambar dari 1.962 gambar).

Lima radiologis tersertifikasi American Board of Radiology yang sama meninjau setiap gambar secara independen. Setiap radiolog pertama-tama ditanya apakah gambar berisi temuan klinis yang berpotensi dapat ditindaklanjuti (label normal/abnormal), dan jika ya, untuk memilih manakah dari 14 kondisi yang ada. Informasi yang tersedia pada saat peninjauan radiologis hanya mencakup usia pasien dan tampilan gambar (AP versus PA). Informasi klinis tambahan tidak tersedia.

Label berada di direktori all_findings_expert_labels. Di test_individual_readers.csv, setiap baris sesuai dengan satu label radiolog untuk satu gambar. Artinya, setiap ID gambar dan ID pasien diulang di beberapa baris (lima baris per gambar, satu baris per pembaca). Setiap baris juga berisi ID pembaca sehingga radiologis dapat dibedakan. Karena ada total 810 gambar dalam set ini, test_individual_readers.csv berisi 4.050 baris dengan 810 ID gambar unik. test_individual_readers.csv juga berisi total 19 kolom. Selain ID gambar, ID pasien, dan ID pembaca, ada kolom untuk normal/abnormal, kolom untuk setiap 14 temuan, dan kolom untuk Other yang menunjukkan adanya temuan abnormal lainnya (di luar 14 yang ditentukan). Nilai sel YES berarti "ada" dan NO berarti "tidak ada".

test_labels.csv berisi label ground truth yang digunakan untuk mengevaluasi sistem deep learning dalam makalah Scientific Reports. Setiap baris berisi label ground truth untuk satu ID gambar, dan setiap ID gambar hanya muncul dalam satu baris, dengan total 810 baris. test_labels.csv memiliki kolom yang sama dengan test_individual_readers.csv, tetapi tanpa kolom "ID pembaca". Untuk mendapatkan label ini, tiga dari lima radiologis yang memberi label pada set ini dipilih secara acak untuk menjadi "radiolog kebenaran dasar" (dua lainnya digunakan sebagai titik perbandingan). "Radiolog kebenaran nyata" ini memiliki ID pembaca "4343882785", "4343883593", dan "4343883996". Suara mayoritas digunakan untuk menentukan label akhir untuk label normal/abnormal dan label akhir untuk setiap temuan tertentu. Label akhir untuk kolom Other ditentukan sebagai YES jika mayoritas radiologis memilih bahwa ada temuan di luar 14, atau jika mayoritas radiologis menunjukkan bahwa gambar tidak normal, tetapi tidak ada satu temuan pun yang ditunjukkan oleh mayoritas radiologis.

Saat menggunakan label ini, sertakan kutipan berikut:

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raja Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2

Untuk informasi selengkapnya tentang Lisensi dan Atribusi set data X-ray Dada NIH, lihat Lisensi dan atribusi.