Set data sinar-X dada NIH terdiri dari 100.000 gambar sinar-x dada yang telah dilakukan de-identifikasi. Gambar akan menggunakan format PNG.
Data ini disediakan oleh NIH Clinical Center dan tersedia melalui situs download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Anda juga dapat mengakses data tersebut melalui Google Cloud, seperti yang dijelaskan dalam Akses data Google Cloud.
Lisensi dan atribusi
Tidak ada batasan pada penggunaan gambar sinar-x dada NIH. Namun, set data memiliki persyaratan atribusi berikut:
Berikan link ke situs download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Sertakan kutipan ke makalah CVPR 2017:
Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Database Sinar X Dada Skala Rumah Sakit dan Tolok Ukur pada Klasifikasi dan Pelokalan Penyakit Umum yang Diawasi dengan Lemah, IEEE CVPR, hlm. 34162-341
Mengakui bahwa Pusat Klinis NIH adalah penyedia data
Akses data Google Cloud
Anda bisa mendapatkan gambar sinar x dada NIH dari Cloud Storage, BigQuery, atau menggunakan Cloud Healthcare API.
Cloud Storage
Data sinar-x dada NIH tersedia di bucket Cloud Storage berikut:
gs://gcs-public-data--healthcare-nih-chest-xray
Buka set data sinar-x dada NIH di Cloud Storage
Bucket menyertakan jalur ke file PNG asli, serta ke instance DICOM:
PNG (disediakan oleh NIH):
gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png
DICOM (disediakan oleh Google):
gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm
Bucket Cloud Storage menggunakan model "Requester Pays" untuk penagihan. Project Google Cloud Anda akan ditagih untuk biaya yang terkait dengan akses ke data NIH. Untuk mengetahui informasi selengkapnya, lihat Pemohon Membayar.
BigQuery
Data sinar-x dada NIH tersedia di chc-nih-chest-xray
project Google Cloud di BigQuery.
Buka set data sinar-x dada NIH di BigQuery
Untuk mengetahui informasi tentang cara mengakses data publik di BigQuery, lihat set data publik BigQuery.
Cloud Healthcare API
Data sinar-x dada NIH tersedia dalam hierarki penyimpanan DICOM berikut di Cloud Healthcare API:
Project: chc-nih-chest-xray
Set data: nih-chest-xray
Penyimpanan DICOM: nih-chest-xray
Untuk meminta akses ke set data sinar-x dada NIH, lengkapi formulir ini.
Buka set data sinar-x dada NIH di Cloud Healthcare API
Untuk mengetahui informasi selengkapnya, lihat Ringkasan DICOM dan Menggunakan Standar DICOMweb.
Pelihat data
Anda juga dapat menggunakan pelihat yang terintegrasi dengan Cloud Healthcare API:
eUnity: https://demo.eunity.app
CloudVue IMS: https://cloudvue.imstsvc.com
Label Tambahan
Guna mengakses label pakar untuk subset set data NIH ChestX-ray14, lengkapi formulir berikut. Setelah melengkapi formulir, Anda dapat mendownload labelnya.
Buka Formulir Google untuk mendapatkan label
Label dikumpulkan sebagai bagian dari dua studi independen, dan dijelaskan dalam makalah berikut:
- Penafsiran Radiograf Cheest dengan Model Deep Learning
- Deep Learning untuk Membedakan Radiografi Dada Normal dan Abnormal dan Generalisasi untuk Dua Penyakit Tak Terlihat, Tuberkulosis dan COVID-19
Ada dua set label, masing-masing terkait dengan salah satu studi. Kumpulan label pertama terkait dengan penelitian yang dipublikasikan di Radiologi dan berfokus pada empat temuan sinar-x dada: opasitas ruang udara, pneumotoraks, nodul/massa, dan fraktur. Kumpulan label kedua dikaitkan dengan studi yang dipublikasikan di Laporan Ilmiah dan mencakup 14 temuan yang dirilis dalam set data asli, serta label normal/abnormal.
Empat label pakar temuan
Dalam makalah Radiologi, serangkaian label yang berfokus pada empat temuan (opasitas ruang angkasa, pneumotoraks, nodul/massa, dan fraktur) serta mencakup set validasi dan pengujian. Label akhir untuk setiap gambar ditetapkan melalui peninjauan yang ditentukan oleh tiga ahli radiologi. Setiap gambar pertama kali ditinjau secara independen oleh tiga ahli radiologi. Untuk set pengujian, dokter radiologi dipilih secara acak untuk setiap gambar dari kohor 11 ahli radiologi bersertifikat American Board of Radiology. Untuk set validasi, tiga ahli radiologi dipilih dari kelompok yang terdiri dari 13 individu, termasuk ahli radiologi bersertifikat dewan dan penduduk radiologi.
Jika semua pembaca sepakat setelah peninjauan awal, label tersebut akan menjadi final. Untuk gambar yang tidak cocok dengan label, gambar akan ditampilkan untuk ditinjau lebih lanjut. Label anonim dan catatan apa pun dari babak sebelumnya juga tersedia selama setiap peninjauan berulang. Adjudikasi dilakukan sampai konsensus, atau hingga maksimum lima putaran. Untuk sejumlah kecil gambar yang konsensusnya tidak tercapai, label suara mayoritas digunakan.
Informasi yang tersedia pada saat peninjauan ahli radiologi hanya mencakup usia dan tampilan gambar pasien (anterior-posterior (AP) versus posterior-anterior (PA)). Informasi klinis tambahan tidak tersedia. Untuk nodul/massa dan pneumotoraks, label yang mungkin adalah: "ada", "tidak ada", atau "hedge" (yang berarti tidak pasti apakah ada atau tidak ada). Untuk opasitas dan pecahan, nilai label yang mungkin hanya "ada" atau "tidak ada".
Label berada di direktori four_findings_expert_labels
. Di
individual_readers.csv
, setiap baris sesuai dengan label untuk masing-masing dari empat
kondisi yang diberikan oleh satu pembaca untuk satu gambar. Setiap
ID gambar dan hasil adjudikasi yang sesuai diulang di beberapa
baris (satu baris per pembaca). ID pembaca disediakan untuk penautan yang stabil di seluruh
gambar. Nilai sel YES
berarti "ada", NO
berarti "tidak ada", dan HEDGE
berarti "tidak pasti".
Di validation_labels.csv
dan test_labels.csv
, metadata yang diberikan sebagai bagian
dari set data sinar-x Dada NIH telah ditambah dengan empat kolom, satu untuk
label yang dipilih untuk masing-masing dari empat kondisi: fraktur, pneumotoraks,
opasitas ruang udara, dan nodul/massa. Ada 1.962 ID gambar unik dalam set
pengujian dan 2.412 ID gambar unik dalam set validasi untuk total 4.374 gambar
dengan label yang ditentukan. Hanya YES
dan NO
yang muncul di kolom label
adjudikasi. Jika nilai kolom tidak ada, berarti gambar tidak disertakan dalam
kumpulan gambar yang dipilih.
Saat menggunakan label ini, sertakan kutipan berikut:
Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer, McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Interpretasi Radiografi Dada Menggunakan Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.
Untuk informasi selengkapnya tentang Lisensi dan Atribusi set data x-ray Dada NIH, lihat bagian Lisensi dan atribusi di atas.
Semua label pakar temuan
Dalam makalah Laporan Ilmiah, kumpulan label berfokus pada 14 temuan yang dirilis dalam set data asli, dan sebagai label normal/abnormal. Kumpulan label hanya berisi gambar dari set pengujian. Gambar ini identik dengan
gambar yang disertakan dalam pemisahan pengujian Four Findings Expert Labels
, terbatas
pada sinar-x dada dengan tampilan PA (810 gambar dari 1.962
gambar).
Lima ahli radiologi bersertifikat American Board of Radiology yang sama secara independen meninjau setiap gambar. Setiap radiologis pertama kali ditanya apakah gambar berisi temuan klinis yang berpotensi dapat ditindaklanjuti (label normal/abnormal), dan jika ya, untuk memilih satu dari 14 kondisi yang ada. Informasi yang tersedia pada saat peninjauan radiolog hanya mencakup usia dan tampilan gambar pasien (AP versus PA). Informasi klinis tambahan tidak tersedia.
Label berada di direktori all_findings_expert_labels
. Di
test_individual_readers.csv
, setiap baris sesuai dengan satu label
ahli radiologi untuk satu gambar. Artinya, setiap ID gambar dan ID pasien
diulangi di beberapa baris (lima baris per gambar, satu baris per pembaca). Setiap
baris juga berisi ID pembaca sehingga ahli radiologi dapat dibedakan.
Karena total ada 810 gambar dalam kumpulan ini,
test_individual_readers.csv
berisi 4.050 baris dengan 810 ID gambar unik.
test_individual_readers.csv
juga berisi total 19 kolom. Selain
ID gambar, ID pasien, dan ID pembaca, ada kolom untuk normal/abnormal, kolom untuk masing-masing dari 14 temuan, dan kolom untuk Other
yang menunjukkan
temuan abnormal lainnya ada (di luar 14 temuan yang ditentukan). Nilai sel
YES
berarti "ada" dan NO
berarti "tidak ada".
test_labels.csv
berisi label kebenaran dasar yang digunakan untuk
mengevaluasi sistem deep learning dalam makalah Laporan Ilmiah.
Setiap baris berisi label kebenaran dasar untuk satu ID gambar, dan setiap ID gambar hanya muncul dalam satu baris, dengan total 810 baris. test_labels.csv
memiliki
kolom yang sama dengan test_individual_readers.csv
, tetapi tanpa kolom "ID pembaca". Untuk mendapatkan label ini, tiga dari lima ahli radiologi yang melabeli kumpulan ini dipilih secara acak untuk menjadi "ahli radiologi kebenaran dasar" (dua lainnya digunakan sebagai titik perbandingan). "Para ahli radiologi kebenaran dasar" ini memiliki ID pembaca "4343882785", "4343883593", dan "4343883996".
Suara mayoritas digunakan untuk menentukan label akhir untuk label normal/abnormal dan label akhir untuk setiap temuan tertentu. Label akhir
untuk kolom Other
ditentukan sebagai YES
jika mayoritas ahli radiologi
memilih bahwa temuan di luar 14 ada, atau jika mayoritas
ahli radiologi menunjukkan bahwa gambar abnormal, tetapi tidak ada temuan
yang diindikasikan oleh mayoritas ahli radiologi.
Saat menggunakan label ini, sertakan kutipan berikut:
Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning untuk Membedakan Radiografi Dada Normal versus Abnormal dan Generalisasi pada Dua Penyakit Tak Terlihat, Tuberkulosis dan COVID-19,
Untuk informasi selengkapnya tentang Lisensi dan Atribusi set data sinar-x Dada NIH, lihat Lisensi dan atribusi.