O conjunto de dados de radiografia de tórax da NIH é composto por 100.000 imagens desidentificadas de radiografias de tórax. As imagens estão no formato PNG.
Os dados são fornecidos pelo NIH Clinical Center e estão disponíveis no site de download do NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Também é possível acessar os dados pelo Google Cloud, conforme descrito em Acesso a dados do Google Cloud.
Licença e atribuição
Não há restrições de uso das imagens de radiografia de tórax da NIH. No entanto, o conjunto de dados tem os seguintes requisitos de atribuição:
Forneça um link para o site de download da NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC
Inclua uma citação no documento CVPR 2017:
Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017
Confirme que o NIH Clinical Center é o fornecedor dos dados
Acesso a dados do Google Cloud
É possível receber as imagens de radiografia do tórax da NIH no Cloud Storage, no BigQuery ou usando a API Cloud Healthcare.
Cloud Storage
Os dados de radiografia do tórax da NIH estão disponíveis no seguinte bucket do Cloud Storage:
gs://gcs-public-data--healthcare-nih-chest-xray
Acesse o conjunto de dados de radiografia do tórax da NIH no Cloud Storage
O bucket inclui caminhos para os arquivos PNG originais e para instâncias do DICOM:
PNG (fornecido pela NIH):
gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png
DICOM (fornecido pelo Google):
gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm
O bucket do Cloud Storage usa o modelo "Pagamentos do solicitante" para faturamento. Seu projeto do Google Cloud será faturado pelas cobranças associadas ao acesso aos dados da NIH. Para mais informações, consulte Pagamentos do solicitante.
BigQuery
Os dados de radiografia do tórax da NIH estão disponíveis no projeto chc-nih-chest-xray
do Google Cloud no BigQuery.
Acesse o conjunto de dados de radiografia do tórax da NIH no BigQuery
Para informações sobre como acessar dados públicos no BigQuery, consulte Conjuntos de dados públicos do BigQuery.
API Cloud Healthcare
Os dados de radiografia do tórax da NIH estão disponíveis na seguinte hierarquia de armazenamento DICOM na API Cloud Healthcare:
Projeto: chc-nih-chest-xray
Conjunto de dados: nih-chest-xray
Armazenamento DICOM: nih-chest-xray
Para solicitar acesso ao conjunto de dados de radiografia do tórax da NIH, preencha este formulário.
Acesse o conjunto de dados de radiografia do tórax da NIH na API Cloud Healthcare
Para mais informações, consulte a visão geral do DICOM e Como usar o padrão DICOMweb.
Visualizadores de dados
Também é possível usar os visualizadores integrados à API Cloud Healthcare:
eUnity: https://demo.eunity.app
IMS CloudVue: https://cloudvue.imstsvc.com
Rótulos adicionais
Para acessar rótulos de especialistas para um subconjunto do conjunto de dados do ChestX-ray14 da NIH, preencha o formulário a seguir. Depois de preencher o formulário, faça o download dos rótulos.
Acesse o Formulários Google para receber os rótulos
Os rótulos foram coletados como parte de dois estudos independentes e estão descritos nos seguintes documentos:
- Interpretação de radiografia de tórax com modelos de aprendizado profundo
- Aprendizado profundo para diferenciar radiografias de tórax normais de anormais e generalização para duas doenças não vistas, tuberculose e COVID-19
Há dois conjuntos de rótulos, cada um associado a um dos estudos. O o primeiro conjunto de rótulos está associado ao estudo publicado na Radiology e se concentra em quatro resultados de radiografia de tórax: opacidade do espaço aéreo, pneumotórax, nódulo/massa e fratura. O segundo conjunto de rótulos está associado o estudo publicado na revista Scientific Reports e inclui todas as 14 descobertas lançadas no conjunto de dados original, e um identificador normal/anormal.
Rótulos de especialistas para quatro descobertas
No artigo da revista Radiologia (em inglês), o conjunto de rótulos foca em quatro descobertas (opacidade do espaço aéreo, pneumotórax, nódulo/massa e fratura) e engloba a validação e os conjuntos de teste. Os rótulos finais de cada imagem foram atribuídos por meio de análise feita por três radiologistas. Cada imagem foi analisada pela primeira vez, de forma independente, por três radiologistas. Para o conjunto de testes, os radiologistas foram selecionados aleatoriamente para cada imagem de uma coorte de 11 radiologistas certificados pela Diretoria de radiologia. Para o conjunto de validação, os três radiologistas foram selecionados de uma coorte de 13 indivíduos, incluindo radiologistas certificados pela American Board Association e residentes em radiologia.
Se todos os leitores estavam de acordo após a análise inicial, esse rótulo se tornou final. As imagens com discordâncias de rótulos foram retornadas para nova análise. Rótulos anônimos e anotações das fases anteriores também ficaram disponíveis durante cada análise iterativa. A avaliação prosseguiu até que o consenso fosse alcançado ou até um máximo de cinco fases. Para o pequeno número de imagens para as quais o consenso não foi alcançado, o rótulo com a maioria dos votos foi usado.
As informações disponíveis no momento da revisão do radiologista incluíam apenas a visualização da idade e das imagens do paciente (anterior-posterior (AP) versus posterior-anterior (PA)). Não havia informações de saúde adicionais disponíveis. Para nódulo/massa e pneumotórax, os rótulos possíveis eram: "presente", "ausente" ou "incerto" (ou seja, incerto se está presente ou ausente). Para opacidade e fratura, os valores de rótulo possíveis eram apenas "presente" ou "ausente".
Os rótulos estão no diretório four_findings_expert_labels
. Em
individual_readers.csv
, cada linha corresponde ao rótulo de cada uma das quatro
condições fornecidas por um único leitor para uma única imagem. Cada
ID de imagem e o resultado da adjudicação correspondente são repetidos em várias
linhas (uma linha por leitor). O ID do leitor é fornecido para vinculação estável entre
as imagens. Um valor de célula de YES
significa "presente", NO
significa "ausente", e HEDGE
significa "incerto".
Em validation_labels.csv
e test_labels.csv
, os metadados fornecidos como parte do conjunto de dados de raio X de tórax do NIH foram ampliados com quatro colunas, uma para o
rótulo adjudicado a cada uma das quatro condições: fratura, pneumotórax,
opacidade do espaço aéreo e núcleo/massa. Há 1.962 IDs de imagem exclusivos no conjunto de testes
e 2.412 IDs de imagem exclusivos no conjunto de validações, totalizando 4.374 imagens
com rótulos definidos. Somente YES
e NO
aparecem nas colunas de rótulos de adjudicação. Se um valor de coluna estiver ausente, essa imagem não foi incluída no
conjunto de imagens adjudicadas.
Ao usar esses rótulos, inclua a seguinte citação:
Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.
Para mais informações sobre a licença e a atribuição do conjunto de dados de raio X de tórax da NIH, consulte a seção Licença e atribuição, acima.
Rótulos de especialistas para todas as descobertas
No artigo Relatórios científicos,
o conjunto de rótulos focou em todas as 14 descobertas lançadas no
conjunto de dados original e como um rótulo normal/anormal. O conjunto de
rótulos continha apenas imagens do conjunto de testes. Essas imagens são idênticas às
incluídas na divisão de teste Four Findings Expert Labels
, restritas
a raios-x de tórax com visualização de PA (810 imagens das 1.962
imagens).
Os mesmos radiologistas certificados pela American Board of Radiology analisaram cada imagem de forma independente. A cada radiologista, primeiro foi perguntado se a imagem continha alguma descoberta clínica potencialmente útil (rótulo normal/anormal) e solicitado que, em caso afirmativo, fossem selecionadas quais das 14 condições estavam presentes. As informações disponíveis no momento da revisão do radiologista incluíam apenas a idade do paciente e visualização da imagem (AP x PA). Não havia informações de saúde adicionais disponíveis.
Os rótulos estão no diretório all_findings_expert_labels
. Em
test_individual_readers.csv
, cada linha corresponde aos rótulos de um único radiologista
para uma única imagem. Isso significa que o ID de imagem e de paciente é
repetido em várias linhas (cinco linhas por imagem, uma linha por leitor). Cada
linha também contém um código de leitor para que os radiologistas possam ser diferenciados.
Como há um total de 810 imagens nesse conjunto,
test_individual_readers.csv
contém 4.050 linhas com 810 IDs de imagens exclusivos.
test_individual_readers.csv
também contém um total de 19 colunas. Além do
ID da imagem, do ID do paciente e do ID do leitor, há uma coluna para normal/anormal, uma
coluna para cada uma das 14 descobertas e uma coluna para Other
indicando que outras
descobertas anormais estão presentes (fora das 14 especificadas). Um valor de célula de
YES
significa "presente" e NO
significa "ausente".
test_labels.csv
contém os rótulos de informações empíricas usados para
avaliar o sistema de aprendizado profundo no artigo Relatórios cientìficos (em inglês).
Cada linha contém os rótulos baseados em informações empíricas para um único ID de imagem, e cada ID de imagem
aparece apenas em uma única linha, totalizando 810 linhas. test_labels.csv
tem as mesmas colunas que test_individual_readers.csv
, mas sem uma coluna "ID do leitor". Para conseguir esses rótulos, três dos cinco radiologistas que
rotularam esse conjunto foram escolhidos aleatoriamente para serem os "radiologistas da verdade"
(os outros dois são pontos de comparação). Esses "radiologistas da verdade"
têm os IDs de leitor "4343882785", "4343883593" e "4343883996".
Um voto majoritário foi usado para determinar o rótulo final para o rótulo normal/anormal
e o rótulo final para cada descoberta específica. O rótulo final
para a coluna Other
foi determinado como sendo YES
, se a maioria dos radiologistas
selecionou que estava presente uma descoberta fora das 14 ou se a maioria dos
radiologistas indicou que a imagem era anormal, mas nenhuma descoberta única foi indicada como presente pela maioria dos radiologistas.
Ao usar esses rótulos, inclua a seguinte citação:
Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2
Para mais informações sobre a Licença e atribuição do conjunto de dados de raios X de tórax do NIH, consulte Licença e atribuição.