Set data sinar-X Dada NIH

Set data sinar-X dada NIH terdiri dari 100.000 gambar sinar-x dada yang telah dilakukan de-identifikasi. Gambar akan menggunakan format PNG.

Data ini disediakan oleh NIH Clinical Center dan tersedia melalui situs download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

Anda juga dapat mengakses data tersebut melalui Google Cloud, seperti yang dijelaskan dalam Akses data Google Cloud.

Lisensi dan atribusi

Tidak ada batasan pada penggunaan gambar sinar-x dada NIH. Namun, set data memiliki persyaratan atribusi berikut:

  • Berikan link ke situs download NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Sertakan kutipan ke makalah CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Database Sinar X Dada Skala Rumah Sakit dan Tolok Ukur pada Klasifikasi dan Pelokalan Penyakit Umum yang Diawasi dengan Lemah, IEEE CVPR, hlm. 34162-341

  • Mengakui bahwa Pusat Klinis NIH adalah penyedia data

Akses data Google Cloud

Anda bisa mendapatkan gambar sinar x dada NIH dari Cloud Storage, BigQuery, atau menggunakan Cloud Healthcare API.

Cloud Storage

Data sinar-x dada NIH tersedia di bucket Cloud Storage berikut:

gs://gcs-public-data--healthcare-nih-chest-xray

Buka set data sinar-x dada NIH di Cloud Storage

Bucket menyertakan jalur ke file PNG asli, serta ke instance DICOM:

PNG (disediakan oleh NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (disediakan oleh Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Bucket Cloud Storage menggunakan model "Requester Pays" untuk penagihan. Project Google Cloud Anda akan ditagih untuk biaya yang terkait dengan akses ke data NIH. Untuk mengetahui informasi selengkapnya, lihat Pemohon Membayar.

BigQuery

Data sinar-x dada NIH tersedia di chc-nih-chest-xray project Google Cloud di BigQuery.

Buka set data sinar-x dada NIH di BigQuery

Untuk mengetahui informasi tentang cara mengakses data publik di BigQuery, lihat set data publik BigQuery.

Cloud Healthcare API

Data sinar-x dada NIH tersedia dalam hierarki penyimpanan DICOM berikut di Cloud Healthcare API:

Project: chc-nih-chest-xray
Set data: nih-chest-xray
Penyimpanan DICOM: nih-chest-xray

Untuk meminta akses ke set data sinar-x dada NIH, lengkapi formulir ini.

Buka set data sinar-x dada NIH di Cloud Healthcare API

Untuk mengetahui informasi selengkapnya, lihat Ringkasan DICOM dan Menggunakan Standar DICOMweb.

Pelihat data

Anda juga dapat menggunakan pelihat yang terintegrasi dengan Cloud Healthcare API:

eUnity: https://demo.eunity.app

CloudVue IMS: https://cloudvue.imstsvc.com

Label Tambahan

Guna mengakses label pakar untuk subset set data NIH ChestX-ray14, lengkapi formulir berikut. Setelah melengkapi formulir, Anda dapat mendownload labelnya.

Buka Formulir Google untuk mendapatkan label

Label dikumpulkan sebagai bagian dari dua studi independen, dan dijelaskan dalam makalah berikut:

Ada dua set label, masing-masing terkait dengan salah satu studi. Kumpulan label pertama terkait dengan penelitian yang dipublikasikan di Radiologi dan berfokus pada empat temuan sinar-x dada: opasitas ruang udara, pneumotoraks, nodul/massa, dan fraktur. Kumpulan label kedua dikaitkan dengan studi yang dipublikasikan di Laporan Ilmiah dan mencakup 14 temuan yang dirilis dalam set data asli, serta label normal/abnormal.

Empat label pakar temuan

Dalam makalah Radiologi, serangkaian label yang berfokus pada empat temuan (opasitas ruang angkasa, pneumotoraks, nodul/massa, dan fraktur) serta mencakup set validasi dan pengujian. Label akhir untuk setiap gambar ditetapkan melalui peninjauan yang ditentukan oleh tiga ahli radiologi. Setiap gambar pertama kali ditinjau secara independen oleh tiga ahli radiologi. Untuk set pengujian, dokter radiologi dipilih secara acak untuk setiap gambar dari kohor 11 ahli radiologi bersertifikat American Board of Radiology. Untuk set validasi, tiga ahli radiologi dipilih dari kelompok yang terdiri dari 13 individu, termasuk ahli radiologi bersertifikat dewan dan penduduk radiologi.

Jika semua pembaca sepakat setelah peninjauan awal, label tersebut akan menjadi final. Untuk gambar yang tidak cocok dengan label, gambar akan ditampilkan untuk ditinjau lebih lanjut. Label anonim dan catatan apa pun dari babak sebelumnya juga tersedia selama setiap peninjauan berulang. Adjudikasi dilakukan sampai konsensus, atau hingga maksimum lima putaran. Untuk sejumlah kecil gambar yang konsensusnya tidak tercapai, label suara mayoritas digunakan.

Informasi yang tersedia pada saat peninjauan ahli radiologi hanya mencakup usia dan tampilan gambar pasien (anterior-posterior (AP) versus posterior-anterior (PA)). Informasi klinis tambahan tidak tersedia. Untuk nodul/massa dan pneumotoraks, label yang mungkin adalah: "ada", "tidak ada", atau "hedge" (yang berarti tidak pasti apakah ada atau tidak ada). Untuk opasitas dan pecahan, nilai label yang mungkin hanya "ada" atau "tidak ada".

Label berada di direktori four_findings_expert_labels. Di individual_readers.csv, setiap baris sesuai dengan label untuk masing-masing dari empat kondisi yang diberikan oleh satu pembaca untuk satu gambar. Setiap ID gambar dan hasil adjudikasi yang sesuai diulang di beberapa baris (satu baris per pembaca). ID pembaca disediakan untuk penautan yang stabil di seluruh gambar. Nilai sel YES berarti "ada", NO berarti "tidak ada", dan HEDGE berarti "tidak pasti".

Di validation_labels.csv dan test_labels.csv, metadata yang diberikan sebagai bagian dari set data sinar-x Dada NIH telah ditambah dengan empat kolom, satu untuk label yang dipilih untuk masing-masing dari empat kondisi: fraktur, pneumotoraks, opasitas ruang udara, dan nodul/massa. Ada 1.962 ID gambar unik dalam set pengujian dan 2.412 ID gambar unik dalam set validasi untuk total 4.374 gambar dengan label yang ditentukan. Hanya YES dan NO yang muncul di kolom label adjudikasi. Jika nilai kolom tidak ada, berarti gambar tidak disertakan dalam kumpulan gambar yang dipilih.

Saat menggunakan label ini, sertakan kutipan berikut:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer, McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Interpretasi Radiografi Dada Menggunakan Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

Untuk informasi selengkapnya tentang Lisensi dan Atribusi set data x-ray Dada NIH, lihat bagian Lisensi dan atribusi di atas.

Semua label pakar temuan

Dalam makalah Laporan Ilmiah, kumpulan label berfokus pada 14 temuan yang dirilis dalam set data asli, dan sebagai label normal/abnormal. Kumpulan label hanya berisi gambar dari set pengujian. Gambar ini identik dengan gambar yang disertakan dalam pemisahan pengujian Four Findings Expert Labels, terbatas pada sinar-x dada dengan tampilan PA (810 gambar dari 1.962 gambar).

Lima ahli radiologi bersertifikat American Board of Radiology yang sama secara independen meninjau setiap gambar. Setiap radiologis pertama kali ditanya apakah gambar berisi temuan klinis yang berpotensi dapat ditindaklanjuti (label normal/abnormal), dan jika ya, untuk memilih satu dari 14 kondisi yang ada. Informasi yang tersedia pada saat peninjauan radiolog hanya mencakup usia dan tampilan gambar pasien (AP versus PA). Informasi klinis tambahan tidak tersedia.

Label berada di direktori all_findings_expert_labels. Di test_individual_readers.csv, setiap baris sesuai dengan satu label ahli radiologi untuk satu gambar. Artinya, setiap ID gambar dan ID pasien diulangi di beberapa baris (lima baris per gambar, satu baris per pembaca). Setiap baris juga berisi ID pembaca sehingga ahli radiologi dapat dibedakan. Karena total ada 810 gambar dalam kumpulan ini, test_individual_readers.csv berisi 4.050 baris dengan 810 ID gambar unik. test_individual_readers.csv juga berisi total 19 kolom. Selain ID gambar, ID pasien, dan ID pembaca, ada kolom untuk normal/abnormal, kolom untuk masing-masing dari 14 temuan, dan kolom untuk Other yang menunjukkan temuan abnormal lainnya ada (di luar 14 temuan yang ditentukan). Nilai sel YES berarti "ada" dan NO berarti "tidak ada".

test_labels.csv berisi label kebenaran dasar yang digunakan untuk mengevaluasi sistem deep learning dalam makalah Laporan Ilmiah. Setiap baris berisi label kebenaran dasar untuk satu ID gambar, dan setiap ID gambar hanya muncul dalam satu baris, dengan total 810 baris. test_labels.csv memiliki kolom yang sama dengan test_individual_readers.csv, tetapi tanpa kolom "ID pembaca". Untuk mendapatkan label ini, tiga dari lima ahli radiologi yang melabeli kumpulan ini dipilih secara acak untuk menjadi "ahli radiologi kebenaran dasar" (dua lainnya digunakan sebagai titik perbandingan). "Para ahli radiologi kebenaran dasar" ini memiliki ID pembaca "4343882785", "4343883593", dan "4343883996". Suara mayoritas digunakan untuk menentukan label akhir untuk label normal/abnormal dan label akhir untuk setiap temuan tertentu. Label akhir untuk kolom Other ditentukan sebagai YES jika mayoritas ahli radiologi memilih bahwa temuan di luar 14 ada, atau jika mayoritas ahli radiologi menunjukkan bahwa gambar abnormal, tetapi tidak ada temuan yang diindikasikan oleh mayoritas ahli radiologi.

Saat menggunakan label ini, sertakan kutipan berikut:

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning untuk Membedakan Radiografi Dada Normal versus Abnormal dan Generalisasi pada Dua Penyakit Tak Terlihat, Tuberkulosis dan COVID-19,

Untuk informasi selengkapnya tentang Lisensi dan Atribusi set data sinar-x Dada NIH, lihat Lisensi dan atribusi.