NIH 흉부 X선 데이터 세트

NIH 흉부 X선 데이터 세트는 익명화된 100,000개의 흉부 X선 이미지로 구성됩니다. 이미지는 PNG 형식입니다.

이 데이터는 국립보건원에서 제공하며 국립보건원 다운로드 사이트(https://nihcc.app.box.com/v/ChestXray-NIHCC)를 통해 제공됩니다.

Google Cloud 데이터 액세스에 설명된 대로 Google Cloud(GCP)를 통해 데이터에 액세스할 수도 있습니다.

라이선스 및 저작자 표시

NIH 흉부 X선 이미지 사용에는 제한이 없습니다. 그러나 데이터 세트에는 다음과 같은 저작자 표시 요구사항이 있습니다.

  • NIH 다운로드 사이트 링크 제공: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • 2017년 CVPR 자료 서지 정보 포함:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • NIH 의료 센터가 데이터 공급자임을 확인

Google Cloud 데이터 액세스

Cloud Storage, BigQuery 또는 Cloud Healthcare API를 사용하여 NIH 흉부 X선 이미지를 가져올 수 있습니다.

Cloud Storage

NIH 흉부 X선 데이터는 다음 Cloud Storage 버킷에서 사용할 수 있습니다.

gs://gcs-public-data--healthcare-nih-chest-xray

Cloud Storage에서 NIH 흉부 X선 데이터 세트로 이동

이 버킷에는 DICOM 인스턴스뿐만 아니라 원본 PNG 파일에 대한 경로가 포함됩니다.

PNG(NIH 제공):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM(Google 제공):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Cloud Storage 버킷은 '요청자 지불' 모델이 결제용으로 사용됩니다. Google Cloud 프로젝트에는 NIH 데이터 액세스와 관련된 요금이 청구됩니다. 자세한 내용은 요청자 지불을 참조하세요.

BigQuery

BigQuery의 chc-nih-chest-xray Google Cloud 프로젝트에서 NIH 흉부 X선 데이터를 사용할 수 있습니다.

BigQuery에서 국립보건원 흉부 X선 데이터 세트로 이동

BigQuery에서 공개 데이터에 액세스하는 방법은 BigQuery 공개 데이터 세트를 참조하세요.

Cloud Healthcare API

NIH 흉부 X선 데이터는 Cloud Healthcare API의 다음 DICOM 저장소 계층 구조에서 사용할 수 있습니다.

프로젝트: chc-nih-chest-xray
데이터 세트: nih-chest-xray
DICOM 저장소: nih-chest-xray

NIH 흉부 X선 데이터 세트에 대한 액세스를 요청하려면 이 양식을 작성하세요.

Cloud Healthcare API에서 NIH 흉부 X선 데이터 세트로 이동

자세한 내용은 DICOM 개요DICOMweb 표준 사용을 참조하세요.

데이터 뷰어

Cloud Healthcare API와 통합된 뷰어를 사용할 수도 있습니다.

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

추가 라벨

다음과 같은 Cloud Storage 버킷에서 NIH 흉부 X선 데이터의 추가 라벨을 사용할 수 있습니다.

gs://gcs-public-data--healthcare-nih-chest-xray-labels

Cloud Storage에서 NIH 흉부 X선 데이터 세트 라벨로 이동

이러한 라벨에 대한 자세한 내용은 방사선과의 Google 문서를 참조하세요.

라벨 생성 방법

각 이미지의 최종 라벨은 3명의 방사선 전문의가 심사를 통해 지정했습니다. 각 이미지는 처음에 3명의 방사선 전문의가 독립적으로 검토했습니다. 테스트 세트의 경우 미국 방사선학 위원회에서 인증한 11명의 방사선 전문의의 동질 집단에서 각 이미지에 대해 무작위로 방사선 전문의가 선정되었습니다. 검증 세트의 경우, 위원회 인증 방사선 전문의와 방사선과 레지던트를 포함한 개인 13명의 동질 집단에서 3명의 방사선 전문의가 선정되었습니다.

최초 검토에서 모든 검토자가 동의한 경우의 라벨은 최종이 됩니다. 비동의 라벨인 이미지의 경우 추가 검토를 위해 반환되었습니다. 이전 라운드에서의 익명 라벨 및 모든 메모는 각 반복 검토 중에도 사용할 수 있었습니다. 판결은 합의에 도달할 때까지 또는 최대 5라운드까지 진행되었습니다. 합의에 도달하지 못한 소수의 이미지의 경우 다수결 라벨이 사용되었습니다.

검토 시점에 제공되는 정보에는 환자의 연령과 이미지 보기(AP 대 PA 비교)만 포함되었습니다. 추가 임상 정보는 사용할 수 없었습니다. 결절/질량 및 기흉의 경우 가능한 라벨은 존재, 부재 또는 '헤지'(예시: 존재 또는 부재 여부가 불확실)입니다. 불투명도 및 골절의 경우 가능한 라벨값은 존재 또는 부재입니다.

라벨 사용 방법

individual_readers.csv라는 제목의 CSV에서 각 행은 단일 이미지에 대해 단일 검토자가 제공한 네 가지 조건의 라벨에 해당합니다. 즉, 각 이미지 ID와 해당 판단 결과가 여러 행(검토자당 한 행)에서 반복됩니다. 검토자 ID는 여러 이미지에서 안정적인 연결을 위해 제공됩니다. YES인 셀 값은 '존재', NO는 '부재', HEDGE는 '불확실'을 의미합니다.

validation_labels.csvtest_labels.csv라는 이름의 CSV에서 NIH 흉부 X선 데이터 세트의 일부로 제공되는 메타데이터가 4개의 열로 보완되었으며 4개 조건인 골절, 기흉, 공역 불투명도, 결절/질량에 대해 판정 라벨에 대해 1개가 각각 추가되었습니다. 테스트 세트에는 1,962개의 고유한 이미지 ID가 있으며 검증 세트에는 2,412개의 고유한 이미지 ID가 있어 판정 라벨에 총 4,374개의 이미지가 있습니다. YES 및 NO만 판정 라벨 열에 표시됩니다. 열 값이 누락된 경우 이 이미지는 판정된 이미지 세트에 포함되지 않았습니다.

이러한 라벨을 사용할 때는 다음 서지 정보를 포함하세요.

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

NIH 흉부 X선 데이터 세트의 라이선스 및 저작권 표시에 대한 자세한 내용은 위의 라이선스 및 저작권 표시 섹션을 참조하세요.

라벨 사용 이유

여러 판독기에서 단일 검토자 또는 다수결 접근법을 사용하면 모델 개발 및 평가에 사용되는 결과 라벨에 오류 또는 불일치가 발생할 수 있습니다. 이로 인해 모델 성능에 대한 추정치 신뢰도가 낮아질 수 있습니다.

예를 들어, 검토자 3명 중 1명만 까다로운 결과를 발견하면 다수결에 의해 부결될 수 있습니다. 이 경우 모델이 유사한 결과(학습 데이터가 없음)를 감지하는 기능이 제한될 뿐만 아니라 평가 결과에 이러한 오류(잘못된 참조 표준)가 반영되지 않아 모델의 정확성이 부풀려집니다. 전문가 판단은 보다 엄격한 접근법으로 더 나은 품질의 모델 개발 및 평가로 이어질 수 있습니다.