Esta página foi traduzida pela API Cloud Translation.
Switch to English

Conjunto de dados de radiografia de tórax da NIH

O conjunto de dados de radiografia de tórax da NIH é composto por 100.000 imagens desidentificadas de radiografias de tórax. As imagens estão no formato PNG.

Os dados são fornecidos pelo NIH Clinical Center e estão disponíveis no site de download do NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

Também é possível acessar os dados por meio do Google Cloud (GCP), conforme descrito em Acesso a dados do Google Cloud.

Licença e atribuição

Não há restrições de uso das imagens de radiografia de tórax da NIH. No entanto, o conjunto de dados tem os seguintes requisitos de atribuição:

  • Forneça um link para o site de download da NIH: https://nihcc.app.box.com/v/ChestXray-NIHCC

  • Inclua uma citação no documento CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Confirme que o NIH Clinical Center é o fornecedor dos dados

Acesso a dados do Google Cloud

É possível receber as imagens de radiografia do tórax da NIH no Cloud Storage, no BigQuery ou usando a API Cloud Healthcare.

Cloud Storage

Os dados de radiografia do tórax da NIH estão disponíveis no seguinte bucket do Cloud Storage:

gs://gcs-public-data--healthcare-nih-chest-xray

Acesse o conjunto de dados de radiografia do tórax da NIH no Cloud Storage

O bucket inclui caminhos para os arquivos PNG originais e para instâncias do DICOM:

PNG (fornecido pela NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (fornecido pelo Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

O bucket do Cloud Storage usa o modelo "Pagamentos do solicitante" para faturamento. Seu projeto do Google Cloud será faturado pelas cobranças associadas ao acesso aos dados da NIH. Para mais informações, consulte Pagamentos do solicitante.

BigQuery

Os dados de radiografia do tórax da NIH estão disponíveis no projeto chc-nih-chest-xray do Google Cloud no BigQuery.

Acesse o conjunto de dados de radiografia do tórax da NIH no BigQuery

Para informações sobre como acessar dados públicos no BigQuery, consulte Conjuntos de dados públicos do BigQuery.

API Cloud Healthcare

Os dados de radiografia do tórax da NIH estão disponíveis na seguinte hierarquia de armazenamento DICOM na API Cloud Healthcare:

Projeto: chc-nih-chest-xray
Conjunto de dados: nih-chest-xray
Armazenamento DICOM: nih-chest-xray

Para solicitar acesso ao conjunto de dados de radiografia do tórax da NIH, preencha este formulário.

Acesse o conjunto de dados de radiografia do tórax da NIH na API Cloud Healthcare

Para mais informações, consulte a visão geral do DICOM e Como usar o padrão DICOMweb.

Visualizadores de dados

Também é possível usar os visualizadores integrados à API Cloud Healthcare:

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Rótulos adicionais

Rótulos adicionais para os dados de radiografia do tórax da NIH estão disponíveis no seguinte bucket do Cloud Storage:

gs://gcs-public-data--healthcare-nih-chest-xray-labels

Acesse os rótulos do conjunto de dados de radiografia do tórax da NIH no Cloud Storage

Para mais detalhes sobre esses rótulos, consulte nosso documento sobre Radiologia.

Como esses rótulos foram criados

Os rótulos finais de cada imagem foram atribuídos por meio de análise feita por três radiologistas. Cada imagem foi analisada pela primeira vez de forma independente por três radiologistas. Para o conjunto de testes, os radiologistas foram selecionados aleatoriamente para cada imagem de uma coorte de 11 radiologistas certificados pela Diretoria de radiologia. Para o conjunto de validação, os três radiologistas foram selecionados de uma coorte de 13 indivíduos, incluindo radiologistas certificados pela Diretoria e radiologistas residentes.

Se todos os leitores estavam de acordo após a análise inicial, esse rótulo se tornou final. As imagens com discordâncias de rótulos foram retornadas para nova análise. Rótulos anônimos e anotações das fases anteriores também ficaram disponíveis durante cada análise iterativa. A avaliação prosseguiu até o consenso ou até cinco fases. Para o pequeno número de imagens para as quais o consenso não foi alcançado, o rótulo com a maioria dos votos foi usado.

As informações disponíveis no momento da análise incluíam apenas a idade do paciente e a visualização da imagem (AP x PA). Não havia informações médicas adicionais disponíveis. Para nódulo/massa e pneumotórax, os possíveis rótulos eram: presente, ausente ou "vago" (isto é, incerto se presente ou ausente). Para opacidade e fratura, os possíveis valores de rótulo eram apenas presente ou ausente.

Como usar esses rótulos

No CSV intitulado individual_readers.csv, cada linha corresponde ao rótulo de cada uma das quatro condições fornecidas por um único leitor para uma única imagem. Isso significa que cada ID de imagem e o resultado da decisão correspondente são repetidos em várias linhas (uma linha por leitor). O ID do leitor é fornecido para vinculação estável entre as imagens. Um valor de célula SIM significa "presente", NÃO significa "ausente" e VAGO significa "incerto".

Nos CSVs intitulados validation_labels.csv e test_labels.csv, os metadados fornecidos como parte do conjunto de dados de radiografia do tórax da NIH foram aumentados com quatro colunas, uma para cada rótulo definido para cada uma das quatro condições: fratura, pneumotórax, opacidade do espaço e nódulo/massa. Há 1.962 IDs de imagem exclusivos no conjunto de testes e 2.412 IDs de imagem exclusivos no conjunto de validação, totalizando 4.374 imagens com rótulos definidos. Somente SIM e NÃO aparecem nas colunas do rótulo definido. Se um valor de coluna estiver ausente, essa imagem não foi incluída no conjunto de imagens definidas.

Ao usar esses rótulos, inclua a seguinte citação:

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

Para mais informações sobre a licença e a atribuição do conjunto de dados de radiografia do tórax da NIH, consulte a seção Licença e atribuição acima.

Por que usar esses rótulos

O uso de um único leitor ou de uma abordagem com mais votos entre vários leitores pode levar a erros ou inconsistências nos rótulos resultantes usados no desenvolvimento e na avaliação do modelo. Isso, por sua vez, pode levar a estimativas menos confiáveis do desempenho do modelo.

Por exemplo, se apenas um dos três leitores detectar corretamente uma descoberta desafiadora, ela será substituída por uma abordagem com maioria de votos. Nesse caso, a capacidade do modelo de detectar descobertas semelhantes (ausentes nos dados de treinamento) ficaria limitada, e os resultados da avaliação não refletiriam esses erros (padrão de referência incorreto), aumentando, de forma falsa, a precisão do modelo. A análise especializada é uma abordagem mais rigorosa que pode levar a um desenvolvimento e uma avaliação de modelo de melhor qualidade.