Set data Sinar X Dada NIH terdiri dari 100.000 gambar sinar X dada yang telah dide-identifikasi. Gambar dalam format PNG.
Data ini disediakan oleh NIH Clinical Center dan tersedia melalui situs download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Anda juga dapat mengakses data melalui Google Cloud, seperti yang dijelaskan dalam Akses data Google Cloud.
Lisensi dan atribusi
Tidak ada batasan penggunaan gambar rontgen dada NIH. Namun, set data memiliki persyaratan atribusi berikut:
Berikan link ke situs download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Sertakan kutipan ke makalah CVPR 2017:
Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017
Mengonfirmasi bahwa NIH Clinical Center adalah penyedia data
Akses data Google Cloud
Anda bisa mendapatkan gambar rontgen dada NIH dari Cloud Storage, BigQuery, atau menggunakan Cloud Healthcare API.
Cloud Storage
Data X-ray dada NIH tersedia di bucket Cloud Storage berikut:
gs://gcs-public-data--healthcare-nih-chest-xray
Buka set data sinar-x dada NIH di Cloud Storage
Bucket menyertakan jalur ke file PNG asli, serta ke instance DICOM:
PNG (disediakan oleh NIH):
gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png
DICOM (disediakan oleh Google):
gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm
Bucket Cloud Storage menggunakan model "Pemohon Membayar" untuk penagihan. Project Google Cloud Anda akan ditagih untuk tagihan yang terkait dengan akses ke data NIH. Untuk mengetahui informasi selengkapnya, lihat Pemohon Membayar.
BigQuery
Data X-ray dada NIH tersedia di project Google Cloud chc-nih-chest-xray
di BigQuery.
Buka set data sinar-x dada NIH di BigQuery
Untuk informasi tentang cara mengakses data publik di BigQuery, baca Set data publik BigQuery.
Cloud Healthcare API
Data sinar-x dada NIH tersedia dalam hierarki penyimpanan DICOM berikut di Cloud Healthcare API:
Project: chc-nih-chest-xray
Dataset: nih-chest-xray
Penyimpanan DICOM: nih-chest-xray
Untuk meminta akses ke set data sinar-x dada NIH, lengkapi formulir ini.
Buka set data sinar-x dada NIH di Cloud Healthcare API
Untuk mengetahui informasi selengkapnya, lihat Ringkasan DICOM dan Menggunakan Standar DICOMweb.
Pelihat data
Anda juga dapat menggunakan penampil yang terintegrasi dengan Cloud Healthcare API:
eUnity: https://demo.eunity.app
IMS CloudVue: https://cloudvue.imstsvc.com
Label Tambahan
Untuk mengakses label pakar untuk subset set data NIH ChestX-ray14, isi formulir berikut. Setelah menyelesaikan formulir, Anda dapat mendownload label.
Buka Google Formulir untuk mendapatkan label
Label dikumpulkan sebagai bagian dari dua studi independen, dan dijelaskan dalam makalah berikut:
- Penafsiran Radiograf Dada dengan Model Deep Learning
- Deep Learning untuk Membedakan Radiograf Dada Normal dan Abnormal serta Generalisasi pada Dua Penyakit yang Tidak Tampak, yaitu Tuberkulosis dan COVID-19
Ada dua kumpulan label, masing-masing terkait dengan salah satu studi. Kumpulan label pertama dikaitkan dengan studi yang dipublikasikan di Radiology dan berfokus pada empat temuan sinar X dada: opasitas ruang udara, pneumothorax, nodul/massa, dan fraktur. Kumpulan label kedua dikaitkan dengan studi yang dipublikasikan di Scientific Reports dan mencakup 14 temuan yang dirilis dalam set data asli, dan label normal/abnormal.
Empat label pakar temuan
Dalam makalah Radiologi, kumpulan label berfokus pada empat temuan (opasitas ruang udara, pneumothorax, nodul/massa, dan fraktur) serta mencakup set validasi dan pengujian. Label akhir untuk setiap gambar ditetapkan melalui peninjauan yang diputuskan oleh tiga radiolog. Setiap gambar pertama kali ditinjau secara independen oleh tiga radiologis. Untuk set pengujian, radiologis dipilih secara acak untuk setiap gambar dari kohor yang terdiri dari 11 radiologis bersertifikasi American Board of Radiology. Untuk set validasi, tiga radiologis dipilih dari kelompok yang terdiri dari 13 individu, termasuk radiologis bersertifikasi dan residen radiologi.
Jika semua pembaca setuju setelah peninjauan awal, label tersebut akan menjadi final. Untuk gambar dengan ketidaksesuaian label, gambar akan ditampilkan untuk peninjauan tambahan. Label anonim dan catatan apa pun dari putaran sebelumnya juga tersedia selama setiap peninjauan iteratif. Penyelesaian dilanjutkan hingga konsensus, atau hingga maksimum lima putaran. Untuk sejumlah kecil gambar yang konsensusnya tidak tercapai, label suara mayoritas digunakan.
Informasi yang tersedia pada saat peninjauan radiologis hanya mencakup usia pasien dan tampilan gambar (anterior-posterior (AP) versus posterior-anterior (PA)). Informasi klinis tambahan tidak tersedia. Untuk nodul/massa dan pneumotoraks, kemungkinan labelnya adalah: "ada", "tidak ada", atau "hedge" (yang berarti tidak pasti apakah ada atau tidak). Untuk opasitas dan fraktur, nilai label yang mungkin hanya "ada" atau "tidak ada".
Label berada di direktori four_findings_expert_labels
. Di
individual_readers.csv
, setiap baris sesuai dengan label untuk masing-masing dari empat
kondisi yang disediakan oleh satu pembaca untuk satu gambar. Setiap
ID gambar dan hasil adjudikasi yang sesuai diulang di beberapa
baris (satu baris per pembaca). ID pembaca disediakan untuk penautan yang stabil di seluruh
gambar. Nilai sel YES
berarti "ada", NO
berarti "tidak ada", dan HEDGE
berarti "tidak pasti".
Di validation_labels.csv
dan test_labels.csv
, metadata yang diberikan sebagai bagian
dari set data X-ray Dada NIH telah ditambah dengan empat kolom, satu untuk
label yang diputuskan untuk setiap dari empat kondisi: fraktur, pneumothorax,
opasitas ruang udara, dan nodul/massa. Ada 1.962 ID gambar unik dalam set pengujian dan 2.412 ID gambar unik dalam set validasi dengan total 4.374 gambar dengan label yang diputuskan. Hanya YES
dan NO
yang muncul di kolom label
adjudikasi. Jika nilai kolom tidak ada, gambar tidak disertakan dalam
kumpulan gambar yang diputuskan.
Saat menggunakan label ini, sertakan kutipan berikut:
Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Penafsiran Radiograf Dada Menggunakan Model Deep Learning: Penilaian Menggunakan Standar Referensi yang Dipilih Radiolog dan Evaluasi dengan Penyesuaian Populasi, Radiologi, 2019.
Untuk mengetahui informasi selengkapnya tentang Lisensi dan Atribusi set data rontgen Dada NIH, lihat bagian Lisensi dan atribusi di atas.
Semua label pakar temuan
Dalam makalah Scientific Reports,
kumpulan label berfokus pada 14 temuan yang dirilis dalam
set data asli, dan sebagai label normal/abnormal. Kumpulan label
hanya berisi gambar dari set pengujian. Gambar ini identik dengan
gambar yang disertakan dalam pemisahan pengujian Four Findings Expert Labels
, yang dibatasi
untuk rontgen dada dengan tampilan PA (810 gambar dari 1.962
gambar).
Lima radiologis tersertifikasi American Board of Radiology yang sama meninjau setiap gambar secara independen. Setiap radiolog pertama-tama ditanya apakah gambar berisi temuan klinis yang berpotensi dapat ditindaklanjuti (label normal/abnormal), dan jika ya, untuk memilih manakah dari 14 kondisi yang ada. Informasi yang tersedia pada saat peninjauan radiologis hanya mencakup usia pasien dan tampilan gambar (AP versus PA). Informasi klinis tambahan tidak tersedia.
Label berada di direktori all_findings_expert_labels
. Di
test_individual_readers.csv
, setiap baris sesuai dengan satu label
radiolog untuk satu gambar. Artinya, setiap ID gambar dan ID pasien
diulang di beberapa baris (lima baris per gambar, satu baris per pembaca). Setiap
baris juga berisi ID pembaca sehingga radiologis dapat dibedakan.
Karena ada total 810 gambar dalam set ini,
test_individual_readers.csv
berisi 4.050 baris dengan 810 ID gambar unik.
test_individual_readers.csv
juga berisi total 19 kolom. Selain
ID gambar, ID pasien, dan ID pembaca, ada kolom untuk normal/abnormal, kolom untuk setiap 14 temuan, dan kolom untuk Other
yang menunjukkan adanya
temuan abnormal lainnya (di luar 14 yang ditentukan). Nilai sel
YES
berarti "ada" dan NO
berarti "tidak ada".
test_labels.csv
berisi label ground truth yang digunakan untuk
mengevaluasi sistem deep learning dalam makalah Scientific Reports.
Setiap baris berisi label ground truth untuk satu ID gambar, dan setiap ID gambar
hanya muncul dalam satu baris, dengan total 810 baris. test_labels.csv
memiliki
kolom yang sama dengan test_individual_readers.csv
, tetapi tanpa kolom "ID pembaca". Untuk mendapatkan label ini, tiga dari lima radiologis yang
memberi label pada set ini dipilih secara acak untuk menjadi "radiolog kebenaran dasar"
(dua lainnya digunakan sebagai titik perbandingan). "Radiolog
kebenaran nyata" ini memiliki ID pembaca "4343882785", "4343883593", dan "4343883996".
Suara mayoritas digunakan untuk menentukan label akhir untuk label normal/abnormal
dan label akhir untuk setiap temuan tertentu. Label akhir
untuk kolom Other
ditentukan sebagai YES
jika mayoritas radiologis
memilih bahwa ada temuan di luar 14, atau jika mayoritas
radiologis menunjukkan bahwa gambar tidak normal, tetapi tidak ada satu temuan
pun yang ditunjukkan oleh mayoritas radiologis.
Saat menggunakan label ini, sertakan kutipan berikut:
Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raja Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2
Untuk informasi selengkapnya tentang Lisensi dan Atribusi set data X-ray Dada NIH, lihat Lisensi dan atribusi.