O conjunto de dados de raios X ao tórax do NIH consiste em 100 000 imagens desidentificadas de raios X ao tórax. As imagens estão no formato PNG.
Os dados são fornecidos pelo NIH Clinical Center e estão disponíveis através do site de transferência do NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Também pode aceder aos dados através do Google Cloud, conforme descrito no Google Cloud acesso aos dados.
Licença e atribuição
Não existem restrições à utilização das imagens de raios X ao tórax do NIH. No entanto, o conjunto de dados tem os seguintes requisitos de atribuição:
Faculte um link para o site de transferência do NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Inclua uma citação do artigo da CVPR 2017:
Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017
Confirmar que o NIH Clinical Center é o fornecedor de dados
Google Cloud acesso aos dados
Pode obter as imagens de raios X ao tórax do NIH a partir do Cloud Storage, do BigQuery ou através da Cloud Healthcare API.
Cloud Storage
Os dados de raios X ao tórax do NIH estão disponíveis no seguinte contentor do Cloud Storage:
gs://gcs-public-data--healthcare-nih-chest-xray
Aceda ao conjunto de dados de raios X ao tórax do NIH no Cloud Storage
O contentor inclui caminhos para os ficheiros PNG originais, bem como para instâncias DICOM:
PNG (fornecido pelo NIH):
gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png
DICOM (fornecido pela Google):
gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm
O contentor do Cloud Storage usa o modelo "O requerente paga" para faturação. O seu Google Cloud projeto vai ser faturado pelos custos associados ao acesso aos dados do NIH. Para mais informações, consulte o artigo O requerente paga.
BigQuery
Os dados de raios X ao tórax do NIH estão disponíveis no projeto chc-nih-chest-xray
Google Cloud no BigQuery.
Aceda ao conjunto de dados de raios X ao tórax do NIH no BigQuery
Para obter informações sobre o acesso a dados públicos no BigQuery, consulte Conjuntos de dados públicos do BigQuery.
API Cloud Healthcare
Os dados de raios X ao tórax do NIH estão disponíveis na seguinte hierarquia de armazenamento DICOM na API Cloud Healthcare:
Projeto: chc-nih-chest-xray
Conjunto de dados: nih-chest-xray
Armazenamento DICOM: nih-chest-xray
Para solicitar acesso ao conjunto de dados de raios X ao tórax do NIH, preencha este formulário.
Aceda ao conjunto de dados de raios X ao tórax do NIH na Cloud Healthcare API
Para mais informações, consulte a vista geral do DICOM e a secção Usar a norma DICOMweb.
Visualizadores de dados
Também pode usar os visualizadores integrados com a Cloud Healthcare API:
eUnity: https://demo.eunity.app
IMS CloudVue: https://cloudvue.imstsvc.com
Etiquetas adicionais
Para aceder às etiquetas de especialistas para um subconjunto do conjunto de dados NIH ChestX-ray14, preencha o seguinte formulário. Depois de preencher o formulário, pode transferir as etiquetas.
Aceda ao Google Form para obter as etiquetas
As etiquetas foram recolhidas como parte de dois estudos independentes e estão descritas nos seguintes artigos:
- Interpretação de radiografias torácicas com modelos de aprendizagem profunda
- Aprendizagem profunda para distinguir radiografias torácicas normais de anormais e generalização a duas doenças não observadas: tuberculose e COVID-19
Existem dois conjuntos de etiquetas, cada um associado a um dos estudos. O primeiro conjunto de etiquetas está associado ao estudo publicado na revista Radiology e foca-se em quatro resultados de raios X ao tórax: opacidade do espaço aéreo, pneumotórax, nódulo/massa e fratura. O segundo conjunto de etiquetas está associado ao estudo publicado na revista Scientific Reports e inclui todas as 14 conclusões publicadas no conjunto de dados original, bem como uma etiqueta normal/anormal.
Quatro etiquetas de especialista em conclusões
No artigo Radiology, o conjunto de etiquetas focou-se em quatro resultados (opacidade do espaço aéreo, pneumotórax, nódulo/massa e fratura) e abrangeu conjuntos de validação e de teste. As etiquetas finais para cada imagem foram atribuídas através de uma revisão de conciliação por três radiologistas. Cada imagem foi primeiro revista de forma independente por três radiologistas. Para o conjunto de testes, os radiologistas foram selecionados aleatoriamente para cada imagem a partir de uma coorte de 11 radiologistas certificados pelo American Board of Radiology. Para o conjunto de validação, os três radiologistas foram selecionados a partir de uma coorte de 13 indivíduos, incluindo radiologistas certificados e residentes de radiologia.
Se todos os revisores concordassem após a revisão inicial, essa etiqueta tornava-se final. Para imagens com discordâncias de etiquetas, as imagens foram devolvidas para revisão adicional. As etiquetas anónimas e as notas das rondas anteriores também estavam disponíveis durante cada revisão iterativa. A decisão prosseguiu até ser alcançado um consenso ou até um máximo de cinco rondas. Para o pequeno número de imagens para as quais não foi alcançado um consenso, foi usada a etiqueta de voto maioritário.
As informações disponíveis no momento da revisão do radiologista incluíam apenas a idade do paciente e a vista da imagem (anterior-posterior [AP] versus posterior-anterior [PA]). Não estavam disponíveis informações clínicas adicionais. Para nódulo/massa e pneumotórax, as etiquetas possíveis eram: "present", "absent" ou "hedge" (o que significa que não se sabe se está presente ou ausente). Para a opacidade e a fratura, os valores possíveis das etiquetas eram apenas "presente" ou "ausente".
As etiquetas estão no diretório four_findings_expert_labels
. Em
individual_readers.csv
, cada linha corresponde à etiqueta de cada uma das quatro
condições fornecidas por um único leitor para uma única imagem. Cada ID de imagem e o resultado da decisão correspondente são repetidos em várias linhas (uma linha por leitor). O ID do leitor é fornecido para uma associação estável entre imagens. Um valor de célula de YES
significa "presente", NO
significa "ausente" e HEDGE
significa "incerto".
Em validation_labels.csv
e test_labels.csv
, os metadados fornecidos como parte do conjunto de dados de raios X ao tórax do NIH foram aumentados com quatro colunas, uma para a etiqueta julgada para cada uma das quatro condições: fratura, pneumotórax, opacidade do espaço aéreo e nódulo/massa. Existem 1962 IDs de imagens únicos no conjunto de testes e 2412 IDs de imagens únicos no conjunto de validação, o que perfaz um total de 4374 imagens com etiquetas julgadas. Apenas YES
e NO
aparecem nas colunas de etiquetas de decisão. Se um valor de coluna estiver em falta, significa que a imagem não foi incluída no conjunto de imagens julgadas.
Quando usar estas etiquetas, inclua a seguinte citação:
Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.
Para mais informações sobre a licença e a atribuição do conjunto de dados de raios X do tórax do NIH, consulte a secção Licença e atribuição acima.
Todas as etiquetas de especialista de conclusões
No artigo Scientific Reports, o conjunto de etiquetas focou-se nas 14 conclusões publicadas no conjunto de dados original e como uma etiqueta normal/anormal. O conjunto de etiquetas continha apenas imagens do conjunto de testes. Estas imagens são idênticas às imagens incluídas na divisão de teste Four Findings Expert Labels
, restritas a radiografias torácicas com vista PA (810 imagens das 1962 imagens).
Os mesmos cinco radiologistas certificados pelo American Board of Radiology reviram independentemente cada imagem. Foi perguntado a cada radiologista se a imagem continha alguma descoberta clínica potencialmente acionável (etiqueta normal/anormal) e, em caso afirmativo, para selecionar qual das 14 condições estava presente. As informações disponíveis no momento da revisão do radiologista incluíam apenas a idade do paciente e a vista da imagem (AP versus PA). Não estavam disponíveis informações clínicas adicionais.
As etiquetas estão no diretório all_findings_expert_labels
. Em
test_individual_readers.csv
, cada linha corresponde às etiquetas de um único radiologista para uma única imagem. Isto significa que cada ID da imagem e ID do paciente são repetidos em várias linhas (cinco linhas por imagem, uma linha por leitor). Cada linha também contém um ID do leitor para que os radiologistas possam ser distinguidos.
Uma vez que existem um total de 810 imagens neste conjunto,
test_individual_readers.csv
contém 4050 linhas com 810 IDs de imagens únicos.
test_individual_readers.csv
também contém um total de 19 colunas. Além do ID da imagem, do ID do paciente e do ID do leitor, existe uma coluna para normal/anormal, uma coluna para cada um dos 14 resultados e uma coluna para Other
que indica a presença de outros resultados anormais (fora dos 14 especificados). Um valor de célula de
YES
significa "presente" e NO
significa "ausente".
test_labels.csv
contém as etiquetas de dados reais usadas para avaliar o sistema de aprendizagem profunda no artigo Scientific Reports.
Cada linha contém as etiquetas de verdade absoluta para um único ID de imagem, e cada ID de imagem só aparece numa única linha, para um total de 810 linhas. test_labels.csv
tem as mesmas colunas que test_individual_readers.csv
, mas sem uma coluna "ID do leitor". Para obter estas etiquetas, três dos cinco radiologistas que etiquetaram este conjunto foram escolhidos aleatoriamente para serem os "radiologistas de referência" (os outros dois foram usados como pontos de comparação). Estes "radiologistas de verdade
terrena" têm IDs de leitores "4343882785", "4343883593" e "4343883996".
Foi usado um voto maioritário para determinar a etiqueta final para a etiqueta normal/anormal
e a etiqueta final para cada descoberta específica. A etiqueta final
para a coluna Other
foi determinada como YES
se a maioria dos radiologistas
selecionou que estava presente uma descoberta fora das 14, ou se a maioria dos
radiologistas indicou que a imagem era anormal, mas nenhuma descoberta
teve uma maioria de radiologistas a indicar que estava presente.
Quando usar estas etiquetas, inclua a seguinte citação:
Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2
Para mais informações sobre a licença e a atribuição do conjunto de dados de raios X do tórax do NIH, consulte o artigo Licença e atribuição.