Conjunto de dados de radiografia de tórax da NIH

O conjunto de dados de radiografia de tórax da NIH é composto por 100.000 imagens desidentificadas de radiografias de tórax. As imagens estão no formato PNG.

Os dados são fornecidos pelo NIH Clinical Center e estão disponíveis no site de download do NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

Também é possível acessar os dados pelo Google Cloud, conforme descrito em Acesso a dados do Google Cloud.

Licença e atribuição

Não há restrições de uso das imagens de radiografia de tórax da NIH. No entanto, o conjunto de dados tem os seguintes requisitos de atribuição:

  • Forneça um link para o site de download da NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Inclua uma citação no documento CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Confirme que o NIH Clinical Center é o fornecedor dos dados

Acesso a dados do Google Cloud

É possível receber as imagens de radiografia do tórax da NIH no Cloud Storage, no BigQuery ou usando a API Cloud Healthcare.

Cloud Storage

Os dados de radiografia do tórax da NIH estão disponíveis no seguinte bucket do Cloud Storage:

gs://gcs-public-data--healthcare-nih-chest-xray

Acesse o conjunto de dados de radiografia do tórax da NIH no Cloud Storage

O bucket inclui caminhos para os arquivos PNG originais e para instâncias do DICOM:

PNG (fornecido pela NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (fornecido pelo Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

O bucket do Cloud Storage usa o modelo "Pagamentos do solicitante" para faturamento. Seu projeto do Google Cloud será faturado pelas cobranças associadas ao acesso aos dados da NIH. Para mais informações, consulte Pagamentos do solicitante.

BigQuery

Os dados de radiografia do tórax da NIH estão disponíveis no projeto chc-nih-chest-xray do Google Cloud no BigQuery.

Acesse o conjunto de dados de radiografia do tórax da NIH no BigQuery

Para informações sobre como acessar dados públicos no BigQuery, consulte Conjuntos de dados públicos do BigQuery.

API Cloud Healthcare

Os dados de radiografia do tórax da NIH estão disponíveis na seguinte hierarquia de armazenamento DICOM na API Cloud Healthcare:

Projeto: chc-nih-chest-xray
Conjunto de dados: nih-chest-xray
Armazenamento DICOM: nih-chest-xray

Para solicitar acesso ao conjunto de dados de radiografia do tórax da NIH, preencha este formulário.

Acesse o conjunto de dados de radiografia do tórax da NIH na API Cloud Healthcare

Para mais informações, consulte a visão geral do DICOM e Como usar o padrão DICOMweb.

Visualizadores de dados

Também é possível usar os visualizadores integrados à API Cloud Healthcare:

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Rótulos adicionais

Para acessar rótulos de especialistas para um subconjunto do conjunto de dados do ChestX-ray14 da NIH, preencha o formulário a seguir. Depois de preencher o formulário, faça o download dos rótulos.

Acesse o Formulários Google para receber os rótulos

Os rótulos foram coletados como parte de dois estudos independentes e estão descritos nos seguintes documentos:

Há dois conjuntos de rótulos, cada um associado a um dos estudos. O o primeiro conjunto de rótulos está associado ao estudo publicado na Radiology e se concentra em quatro resultados de radiografia de tórax: opacidade do espaço aéreo, pneumotórax, nódulo/massa e fratura. O segundo conjunto de rótulos está associado o estudo publicado na revista Scientific Reports e inclui todas as 14 descobertas lançadas no conjunto de dados original, e um identificador normal/anormal.

Rótulos de especialistas para quatro descobertas

No artigo da revista Radiologia (em inglês), o conjunto de rótulos foca em quatro descobertas (opacidade do espaço aéreo, pneumotórax, nódulo/massa e fratura) e engloba a validação e os conjuntos de teste. Os rótulos finais de cada imagem foram atribuídos por meio de análise feita por três radiologistas. Cada imagem foi analisada pela primeira vez, de forma independente, por três radiologistas. Para o conjunto de testes, os radiologistas foram selecionados aleatoriamente para cada imagem de uma coorte de 11 radiologistas certificados pela Diretoria de radiologia. Para o conjunto de validação, os três radiologistas foram selecionados de uma coorte de 13 indivíduos, incluindo radiologistas certificados pela American Board Association e residentes em radiologia.

Se todos os leitores estavam de acordo após a análise inicial, esse rótulo se tornou final. As imagens com discordâncias de rótulos foram retornadas para nova análise. Rótulos anônimos e anotações das fases anteriores também ficaram disponíveis durante cada análise iterativa. A avaliação prosseguiu até que o consenso fosse alcançado ou até um máximo de cinco fases. Para o pequeno número de imagens para as quais o consenso não foi alcançado, o rótulo com a maioria dos votos foi usado.

As informações disponíveis no momento da revisão do radiologista incluíam apenas a visualização da idade e das imagens do paciente (anterior-posterior (AP) versus posterior-anterior (PA)). Não havia informações de saúde adicionais disponíveis. Para nódulo/massa e pneumotórax, os rótulos possíveis eram: "presente", "ausente" ou "incerto" (ou seja, incerto se está presente ou ausente). Para opacidade e fratura, os valores de rótulo possíveis eram apenas "presente" ou "ausente".

Os rótulos estão no diretório four_findings_expert_labels. Em individual_readers.csv, cada linha corresponde ao rótulo de cada uma das quatro condições fornecidas por um único leitor para uma única imagem. Cada ID de imagem e o resultado da adjudicação correspondente são repetidos em várias linhas (uma linha por leitor). O ID do leitor é fornecido para vinculação estável entre as imagens. Um valor de célula de YES significa "presente", NO significa "ausente", e HEDGE significa "incerto".

Em validation_labels.csv e test_labels.csv, os metadados fornecidos como parte do conjunto de dados de raio X de tórax do NIH foram ampliados com quatro colunas, uma para o rótulo adjudicado a cada uma das quatro condições: fratura, pneumotórax, opacidade do espaço aéreo e núcleo/massa. Há 1.962 IDs de imagem exclusivos no conjunto de testes e 2.412 IDs de imagem exclusivos no conjunto de validações, totalizando 4.374 imagens com rótulos definidos. Somente YES e NO aparecem nas colunas de rótulos de adjudicação. Se um valor de coluna estiver ausente, essa imagem não foi incluída no conjunto de imagens adjudicadas.

Ao usar esses rótulos, inclua a seguinte citação:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

Para mais informações sobre a licença e a atribuição do conjunto de dados de raio X de tórax da NIH, consulte a seção Licença e atribuição, acima.

Rótulos de especialistas para todas as descobertas

No artigo Relatórios científicos, o conjunto de rótulos focou em todas as 14 descobertas lançadas no conjunto de dados original e como um rótulo normal/anormal. O conjunto de rótulos continha apenas imagens do conjunto de testes. Essas imagens são idênticas às incluídas na divisão de teste Four Findings Expert Labels, restritas a raios-x de tórax com visualização de PA (810 imagens das 1.962 imagens).

Os mesmos radiologistas certificados pela American Board of Radiology analisaram cada imagem de forma independente. A cada radiologista, primeiro foi perguntado se a imagem continha alguma descoberta clínica potencialmente útil (rótulo normal/anormal) e solicitado que, em caso afirmativo, fossem selecionadas quais das 14 condições estavam presentes. As informações disponíveis no momento da revisão do radiologista incluíam apenas a idade do paciente e visualização da imagem (AP x PA). Não havia informações de saúde adicionais disponíveis.

Os rótulos estão no diretório all_findings_expert_labels. Em test_individual_readers.csv, cada linha corresponde aos rótulos de um único radiologista para uma única imagem. Isso significa que o ID de imagem e de paciente é repetido em várias linhas (cinco linhas por imagem, uma linha por leitor). Cada linha também contém um código de leitor para que os radiologistas possam ser diferenciados. Como há um total de 810 imagens nesse conjunto, test_individual_readers.csv contém 4.050 linhas com 810 IDs de imagens exclusivos. test_individual_readers.csv também contém um total de 19 colunas. Além do ID da imagem, do ID do paciente e do ID do leitor, há uma coluna para normal/anormal, uma coluna para cada uma das 14 descobertas e uma coluna para Other indicando que outras descobertas anormais estão presentes (fora das 14 especificadas). Um valor de célula de YES significa "presente" e NO significa "ausente".

test_labels.csv contém os rótulos de informações empíricas usados para avaliar o sistema de aprendizado profundo no artigo Relatórios cientìficos (em inglês). Cada linha contém os rótulos baseados em informações empíricas para um único ID de imagem, e cada ID de imagem aparece apenas em uma única linha, totalizando 810 linhas. test_labels.csv tem as mesmas colunas que test_individual_readers.csv, mas sem uma coluna "ID do leitor". Para conseguir esses rótulos, três dos cinco radiologistas que rotularam esse conjunto foram escolhidos aleatoriamente para serem os "radiologistas da verdade" (os outros dois são pontos de comparação). Esses "radiologistas da verdade" têm os IDs de leitor "4343882785", "4343883593" e "4343883996". Um voto majoritário foi usado para determinar o rótulo final para o rótulo normal/anormal e o rótulo final para cada descoberta específica. O rótulo final para a coluna Other foi determinado como sendo YES, se a maioria dos radiologistas selecionou que estava presente uma descoberta fora das 14 ou se a maioria dos radiologistas indicou que a imagem era anormal, mas nenhuma descoberta única foi indicada como presente pela maioria dos radiologistas.

Ao usar esses rótulos, inclua a seguinte citação:

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2

Para mais informações sobre a Licença e atribuição do conjunto de dados de raios X de tórax do NIH, consulte Licença e atribuição.