NIH 흉부 X선 데이터 세트

NIH 흉부 X선 데이터 세트는 익명화된 100,000개의 흉부 X선 이미지로 구성됩니다. 이미지는 PNG 형식입니다.

이 데이터는 국립보건원에서 제공하며 국립보건원 다운로드 사이트(https://nihcc.app.box.com/v/ChestXray-NIHCC)를 통해 제공됩니다.

Google Cloud 데이터 액세스에 설명된 대로 Google Cloud를 통해 데이터에 액세스할 수도 있습니다.

라이선스 및 저작자 표시

NIH 흉부 X선 이미지 사용에는 제한이 없습니다. 그러나 데이터 세트에는 다음과 같은 저작자 표시 요구사항이 있습니다.

NIH 다운로드 사이트 링크 제공: https://nihcc.app.box.com/v/ChestXray-NIHCC
2017년 CVPR 자료 서지 정보 포함:

Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017
NIH 의료 센터가 데이터 제공업체임을 확인

Google Cloud 데이터 액세스

Cloud Storage, BigQuery 또는 Cloud Healthcare API를 사용하여 NIH 흉부 X선 이미지를 가져올 수 있습니다.

Cloud Storage

NIH 흉부 X선 데이터는 다음 Cloud Storage 버킷에서 사용할 수 있습니다.

gs://gcs-public-data--healthcare-nih-chest-xray

Cloud Storage에서 NIH 흉부 X선 데이터 세트로 이동

이 버킷에는 DICOM 인스턴스뿐만 아니라 원본 PNG 파일에 대한 경로가 포함됩니다.

PNG(NIH 제공):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM(Google 제공):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Cloud Storage 버킷은 '요청자 지불' 모델이 결제용으로 사용됩니다. Google Cloud 프로젝트에는 NIH 데이터 액세스와 관련된 요금이 청구됩니다. 자세한 내용은 요청자 지불을 참조하세요.

BigQuery

BigQuery의 chc-nih-chest-xray Google Cloud 프로젝트에서 NIH 흉부 X선 데이터를 사용할 수 있습니다.

BigQuery에서 국립보건원 흉부 X선 데이터 세트로 이동

BigQuery에서 공개 데이터에 액세스하는 방법은 BigQuery 공개 데이터 세트를 참조하세요.

Cloud Healthcare API

NIH 흉부 X선 데이터는 Cloud Healthcare API의 다음 DICOM 저장소 계층 구조에서 사용할 수 있습니다.

프로젝트: chc-nih-chest-xray
데이터 세트: nih-chest-xray
DICOM 저장소: nih-chest-xray

NIH 흉부 X선 데이터 세트에 대한 액세스를 요청하려면 이 양식을 작성하세요.

Cloud Healthcare API에서 NIH 흉부 X선 데이터 세트로 이동

자세한 내용은 DICOM 개요 및 DICOMweb 표준 사용을 참조하세요.

데이터 뷰어

Cloud Healthcare API와 통합된 뷰어를 사용할 수도 있습니다.

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

추가 라벨

NIH ChestX-ray14 데이터 세트의 하위 집합에서 전문가 라벨에 액세스하려면 다음 양식을 작성합니다. 양식을 작성한 후에는 라벨을 다운로드할 수 있습니다.

Google 양식으로 이동하여 라벨 가져오기

라벨은 두 가지 독립적인 연구의 일부로 수집되었으며 다음 논문에 설명되어 있습니다.

라벨에는 두 가지 세트가 있으며 각 세트는 연구 중 하나와 관련됩니다. 첫 번째 라벨 집합은 방사선학에 발표된 연구와 관련되어 있으며 4개의 흉부 방사선 촬영 결과, 즉 공역 불투명도, 기흉, 결절/덩어리, 골절을 나타냅니다. 두 번째 라벨 집합은 과학 보고서에 게시된 연구와 관련되어 있으며 여기에는 원본 데이터 세트 및 정상/비정상 라벨로 발표된 14개의 연구 결과가 모두 포함되어 있습니다.

연구 결과 전문가 라벨 4개

다음 방사선과 논문, 네 가지 연구 결과(공역 불투명도, 기흉, 결절/덩어리, 골절)에 중점을 둔 라벨 세트에는 검증 세트와 테스트 세트가 모두 포함됩니다. 각 이미지의 최종 라벨은 3명의 방사선 전문의가 심사를 통해 지정했습니다. 각 이미지는 처음에 3명의 방사선 전문의가 독립적으로 검토했습니다. 테스트 세트의 경우 미국 방사선학 위원회에서 인증한 11명의 방사선 전문의의 동질 집단에서 각 이미지에 대해 무작위로 방사선 전문의가 선정되었습니다. 검증 세트의 경우, 위원회 인증 방사선 전문의와 방사선과 레지던트를 포함한 개인 13명의 동질 집단에서 3명의 방사선 전문의가 선정되었습니다.

최초 검토에서 모든 검토자가 동의한 경우의 라벨은 최종이 됩니다. 비동의 라벨인 이미지의 경우 추가 검토를 위해 반환되었습니다. 이전 라운드에서의 익명 라벨 및 모든 메모는 각 반복 검토 중에도 사용할 수 있었습니다. 판결은 합의에 도달할 때까지 또는 최대 5라운드까지 진행되었습니다. 합의에 도달하지 못한 소수의 이미지의 경우 다수결 라벨이 사용되었습니다.

방사선 전문의가 검토할 때 확인할 수 있는 정보에는 환자의 연령과 이미지 보기(전부 후기(AP) 대 후부 전기(PA))만 포함되었습니다. 추가 임상 정보는 사용할 수 없었습니다. 결절/덩어리와 기흉의 경우 가능한 라벨은 '있음', '없음' 또는 '불확실'(있고 없음이 불확실함)입니다. 불투명도와 골절의 경우 가능한 라벨 값은 '있음' 또는 '없음'이었습니다.

라벨은 four_findings_expert_labels 디렉터리에 있습니다. individual_readers.csv에서 각 행은 단일 이미지에 대해 단일 검토자가 제공한 네 가지 조건의 라벨에 해당합니다. 각 이미지 ID와 해당 판단 결과는 여러 행에서 반복됩니다(검토자당 하나의 행). 검토자 ID는 여러 이미지에서 안정적인 연결을 위해 제공됩니다. 셀 값 중 YES는 '있음'을 의미하고, NO는 '없음'을 의미하고, HEDGE는 '불확실'을 의미합니다.

validation_labels.csv 및 test_labels.csv에서는 NIH 흉부 방사선 데이터 세트의 일부로 제공되는 메타데이터가 4개의 열로 보강되었으며 4개의 각 조건(공역 불투명도, 기흉, 결절/덩어리, 골절)에 대해 판정된 라벨은 하나씩 있습니다. 테스트 세트에는 1,962개의 고유한 이미지 ID가 있으며 검증 세트에는 2,412개의 고유한 이미지 ID가 있어 판정 라벨에 총 4,374개의 이미지가 있습니다. YES 및 NO만 판정 라벨 열에 표시됩니다. 열 값이 누락된 경우 이미지는 판정된 이미지 세트에 포함되지 않았습니다.

이러한 라벨을 사용할 때는 다음 서지 정보를 포함하세요.

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

모든 연구 결과 전문가 라벨

과학 보고서 논문에서 원본 데이터 세트에서 발표한 14가지 연구 결과에 초점을 맞춘 라벨과 정상/비정상 라벨의 집합입니다. 라벨 세트에는 테스트 세트의 이미지만 포함되었습니다. 이러한 이미지는 PA 뷰를 사용한 흉부 방사선으로 제한되는 Four Findings Expert Labels 테스트 분할에 포함된 이미지(1,962개 이미지 중 810개)와 동일합니다.

미국 방사선학 위원회에서 인증한 5명의 동일한 방사선 전문의가 각 이미지를 독립적으로 검토했습니다. 각 방사선 전문의는 먼저 이미지에 실행 가능한 임상 결과(정상/비정상 라벨)가 포함되어 있는지 확인했으며 그렇다면 14개 조건 중 어떤 것이 존재하는지 선택해야 했습니다. 방사선 전문의가 검토할 때 사용할 수 있는 정보에는 환자의 연령과 이미지 보기(AP 대 PA 비교)만 포함되었습니다. 추가 임상 정보는 사용할 수 없었습니다.

라벨은 all_findings_expert_labels 디렉터리에 있습니다. test_individual_readers.csv에서 각 행은 단일 이미지의 단일 방사선 전문의 라벨에 해당합니다. 즉, 각 이미지 ID와 환자 ID가 여러 행(이미지당 5개 행, 검토자당 1개 행)에서 반복됩니다. 방사선과를 구별할 수 있도록 각 행에는 검토자 ID도 포함되어 있습니다. 이 집합에는 총 810개의 이미지가 있으므로 test_individual_readers.csv에는 810개의 고유한 이미지 ID가 있는 4,050개의 행이 포함됩니다. 또한 test_individual_readers.csv에는 총 19개의 열이 포함됩니다. 이미지 ID, 환자 ID, 검토 ID 외에도 정상/비정상에 대한 열 14개, 각각에 대해 14개의 다른 결과를 나타내는 Other 열이 있으며 이는 지정된 발견 항목 14개를 벗어난 비정상 연구 결과가 있습니다. 셀 값 중 YES는 '있음'을, NO는 '없음'을 의미합니다.

test_labels.csv에는 과학 보고서 논문에서 딥 러닝 시스템을 평가하는 데 사용되는 정답 라벨이 포함되어 있습니다. 각 행에는 단일 이미지 ID의 정답 라벨이 포함되며 각 이미지 ID는 단일 행에만 표시되어 총 810개입니다. test_labels.csv에는 test_individual_readers.csv와 동일한 열이 있지만 '검토자 ID' 열은 없습니다. 이 라벨을 얻기 위해 이 세트에 라벨을 지정한 5명의 방사선 전문의 중 3명은 무작위로 '정답 방사선 전문의'로 선택되었습니다(나머지 2명은 비교 지점으로 사용됨). 이러한 '정답 방사선 전문의'는 '4343882785', '4343883593', '4343883996'입니다. 과반수 투표를 통해 정상/비정상 라벨의 최종 라벨과 각 연구 결과의 최종 라벨을 결정했습니다. Other 열의 최종 라벨은 방사선 전문의가 14개 이외의 연구 결과가 있었다고 선택하거나 대다수의 방사선 전문의가 이를 표시한 경우 YES로 판단되었습니다. 해당 이미지가 비정상적이었으나, 방사선 전문의 대부분이 있다고 한 연구 결과는 한 개도 없었습니다.