Ensemble de données radiographiques du thorax du NIH

L'ensemble de données radiographiques du thorax du NIH est constitué de 100 000 images anonymisées de radiographies du thorax. Les images sont au format PNG.

Les données sont fournies par le NIH Clinical Center et sont disponibles via le site de téléchargement du NIH : https://nihcc.app.box.com/v/ChestXray-NIHCC

Vous pouvez également accéder aux données via Google Cloud (GCP), comme décrit dans la section Accès aux données Google Cloud.

Licence et attribution

Il n'y a pas de restrictions concernant l'utilisation des images de radiographie du thorax du NIH Cependant, l'ensemble de données est soumis aux exigences d'attribution suivantes:

  • Fournissez un lien vers le site de téléchargement du NIH : https://nihcc.app.box.com/v/ChestXray-NIHCC.

  • Incluez une citation dans l'article du CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Confirmez que le NIH Clinical Center est le fournisseur de données.

Accès aux données Google Cloud

Vous pouvez obtenir les images radiographiques du thorax du NIH à partir de Cloud Storage, BigQuery ou de l'API Cloud Healthcare.

Cloud Storage

Les données radiographiques du thorax du NIH sont disponibles dans le bucket Cloud Storage suivant:

gs://gcs-public-data--healthcare-nih-chest-xray

Accéder à l'ensemble de données radiographiques du thorax du NIH dans Cloud Storage

Le bucket inclut des chemins d'accès aux fichiers PNG d'origine, ainsi qu'aux instances DICOM:

PNG (fourni par le NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (fourni par Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Les buckets Cloud Storage utilisent le modèle "Paiements du demandeur" pour la facturation. Les frais associés à l'accès aux données du NIH seront facturés sur votre projet Google Cloud. Pour en savoir plus, consultez la section Paiements du demandeur.

BigQuery

Les données radiographiques du thorax du NIH sont disponibles dans le projet Google Cloud chc-nih-chest-xray dans BigQuery.

Accéder à l'ensemble de données radiographiques du thorax du NIH dans BigQuery

Pour en savoir plus sur l'accès aux données publiques dans BigQuery, consultez la page Ensembles de données publics BigQuery.

API Cloud Healthcare

Les données radiographiques du thorax du NIH sont disponibles dans la hiérarchie de magasins DICOM suivante dans l'API Cloud Healthcare:

Projet: chc-nih-chest-xray
Ensemble de données: nih-chest-xray
Magasin DICOM: nih-chest-xray

Pour demander l'accès à l'ensemble de données radiographiques du thorax du NIH, remplissez ce formulaire.

Accéder à l'ensemble de données radiographiques du thorax du NIH dans l'API Cloud Healthcare

Pour plus d'informations, consultez les sections Présentation de DICOM et Utiliser la norme DICOMweb.

Lecteurs de données

Vous pouvez également utiliser les lecteurs intégrés à l'API Cloud Healthcare :

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Libellés supplémentaires

Pour accéder aux libellés d'experts pour un sous-ensemble de l'ensemble de données NIH ChestX-ray14, remplissez le formulaire suivant. Une fois le formulaire rempli, vous pouvez télécharger les libellés.

Accéder au formulaire Google pour obtenir les libellés

Les libellés ont été collectés dans le cadre de deux études indépendantes et sont décrits dans les articles suivants:

Il existe deux ensembles de libellés, chacun étant associé à l'une des études. Le premier ensemble de libellés est associé à l'étude publiée dans Radiology et se concentre sur quatre résultats de radiographie thoracique: opacité de l'espace aérien, pneumothorax, nodule/masse et fracture. Le deuxième ensemble de libellés est associé à l'étude publiée dans des rapports scientifiques et inclut les 14 résultats publiés dansl'ensemble de données d'origine et un libellé normal/anormal.

Quatre libellés d'experts pour les résultats

Dans l'article de Radiology, l'ensemble de libellés se concentre sur quatre résultats (opacité de l'espace aérien, pneumothorax, nodule/masse et fracture) et englobe la validation et les ensembles de test. Les libellés définitifs de chaque image ont été attribués par trois radiologues, à l'issue d'un examen décisionnel. Chaque image a été examinée de manière indépendante par trois radiologues. Pour chaque image de l'ensemble de test, les radiologues ont été sélectionnés au hasard parmi une cohorte de 11 radiologues agréés par l'American Board of Radiologie. Pour l'ensemble de validation, les trois radiologues ont été sélectionnés parmi une cohorte de 13 personnes, comprenant des radiologues certifiés et des internes en radiologie.

Les libellés n'ont été déclarés définitifs à l'issue du premier examen que sous réserve de l'accord de tous les lecteurs. Les images suscitant des désaccords concernant les libellés ont été renvoyées pour examen supplémentaire. Les libellés anonymes et les notes émises au cours des séries d'examen précédentes étaient également disponibles lors de chaque examen itératif. Le processus décisionnel s'est poursuivi jusqu'à l'obtention d'un consensus ou pendant un maximum de cinq séries d'examen. En cas d'absence de consensus concernant un petit nombre d'images, le libellé remportant la majorité des voix a été utilisé.

Les seules informations disponibles au moment de l'examen du radiologiste étaient l'âge du patient et l'observation de l'image (antérieure-postérieure et postérieure-antérieure). Aucune information supplémentaire n'a été fournie. En cas de nodule, de masse ou de pneumothorax, les libellés possibles étaient "présent", "absent" ou "Hedge" (en cas d'incertitude). En ce qui concerne les opacités et les fractures, les seules valeurs de libellé possibles étaient "présent" ou "absent".

Les libellés se trouvent dans le répertoire four_findings_expert_labels. Dans individual_readers.csv, chaque ligne correspond au libellé de chacune des quatre conditions fournies par un seul lecteur pour une seule image. Chaque ID d'image et le résultat du processus décisionnel correspondant sont répétés sur plusieurs lignes (une ligne par lecteur). L'ID du lecteur est fourni afin d'établir un lien stable entre les images. Une valeur de cellule YES signifie "présent", la valeur NO signifie "absent" et la valeur HEDGE signifie "incertain".

Dans validation_labels.csv et test_labels.csv, quatre colonnes ont été ajoutées pour les métadonnées fournies dans le cadre de l'ensemble de données radiographiques du thorax du NIH, une pour le libellé attribué pour chacune des quatre conditions : fracture, pneumothorax, opacité des espaces aériens, nodule/masse. Il existe 1 962 ID d'image uniques dans l'ensemble de test et 2 412 ID d'image uniques dans l'ensemble de validation, soit un total de 4 374 images pour lesquelles des libellés ont été attribués. Seules les valeurs YES et NO apparaissent dans les colonnes de libellés attribués. S'il manque une valeur dans une colonne, cela signifie que l'image n'a pas été incluse dans l'ensemble d'images pour lesquelles des libellés ont été attribués.

Lorsque vous utilisez ces libellés, veuillez inclure la citation suivante :

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

Pour en savoir plus sur la licence et l'attribution de l'ensemble de données radiographiques du thorax du NIH, consultez la section Licence et attribution ci-dessus.

Tous les libellés d'experts pour les résultats

Dans l'article sur les rapports scientifiques, l'ensemble de libellés se concentre sur les 14 résultats publiés dans l'ensemble de données d'origine, et un libellé normal/anormal. L'ensemble de libellés ne contenait que des images de l'ensemble de test. Ces images sont identiques aux images incluses dans la répartition des tests Four Findings Expert Labels, limitées aux radiographies du thorax avec la vue PA (810 images sur 1 962).

Les cinq mêmes radiologues agréés par l'American Board of Radiology ont révisé indépendamment chaque image. Chaque radiologue a d'abord été invité à déterminer si l'image contenait un résultat clinique potentiellement exploitable (libellé normale/anormale), et, le cas échéant, à sélectionner les 14 conditions présentes. Les seules informations disponibles pendant l'examen du radiologue étaient l'âge du patient et l'observation de l'image (AP/PA). Aucune information supplémentaire n'a été fournie.

Les libellés se trouvent dans le répertoire all_findings_expert_labels. Dans test_individual_readers.csv, chaque ligne correspond aux libellés d'un seul radiologue pour une seule image. Cela signifie que chaque ID d'image et ID de patient est répété sur plusieurs lignes (cinq lignes par image, une ligne par lecteur). Chaque ligne contient également un ID de lecteur permettant de distinguer les radiologues. Étant donné que cet ensemble contient un total de 810 images, test_individual_readers.csv contient 4 050 lignes avec 810 ID d'image uniques. test_individual_readers.csv contient également un total de 19 colonnes. En plus de l'ID d'image, de l'ID du patient et de l'ID du lecteur, il existe une colonne pour normal/anormal, une colonne pour chacun des 14 résultats et une colonne pour Other indiquant si d'autres résultats anormaux sont présents (en dehors des 14 spécifiés). Une valeur de cellule YES signifie "présent" et NO signifie "absent".

test_labels.csv contient les étiquettes de vérité terrain utilisées pour évaluer le système de deep learning dans les rapports scientifiques. Chaque ligne contient les étiquettes de vérité terrain pour un seul ID d'image et chaque ID d'image n'apparaît que sur une seule ligne, soit un total de 810 lignes. test_labels.csv comporte les mêmes colonnes que test_individual_readers.csv, mais sans colonne "ID de lecteur". Pour obtenir ces libellés, trois des cinq radiologues qui ont attribué un libellé à cet ensemble ont été sélectionnés au hasard en tant que "radiologues de vérité terrain" (les deux autres ont été utilisés comme points de comparaison). Ces "radiologues de vérité terrain" ont les ID de lecteur "4343882785", "4343883593" et "4343883996". Un vote majoritaire a été utilisé pour déterminer l'étiquette finale pour l'étiquette normale/anormale et l'étiquette finale pour chaque résultat particulier. Le libellé final de la colonne Other devait être YES si la majorité des radiologues sélectionnaient la présence d'un résultat en dehors de la colonne 14, ou si la majorité des radiologues indiquaient que l'image était anormale, mais aucun résultat ne contenait la majorité des radiologues.

Lorsque vous utilisez ces libellés, veuillez inclure la citation suivante :

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2

Pour en savoir plus sur la licence et l'attribution de l'ensemble de données radiographiques du thorax du NIH, consultez la page Licence et attribution.