Ensemble de données radiographiques du thorax du NIH

L'ensemble de données radiographiques du thorax du NIH est constitué de 100 000 images anonymisées de radiographies du thorax. Les images sont au format PNG.

Les données sont fournies par le NIH Clinical Center et sont disponibles via le site de téléchargement du NIH : https://nihcc.app.box.com/v/ChestXray-NIHCC

Vous pouvez également accéder aux données via Google Cloud, comme décrit dans la section Accès aux données Google Cloud.

Licence et attribution

Il n'y a pas de restrictions concernant l'utilisation des images de radiographie du thorax du NIH Cependant, l'ensemble de données est soumis aux exigences d'attribution suivantes:

  • Fournissez un lien vers le site de téléchargement du NIH : https://nihcc.app.box.com/v/ChestXray-NIHCC.

  • Incluez une citation dans l'article du CVPR 2017:

    Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017

  • Confirmez que le NIH Clinical Center est le fournisseur de données.

Accès aux données Google Cloud

Vous pouvez obtenir les images radiographiques du thorax du NIH à partir de Cloud Storage, BigQuery ou de l'API Cloud Healthcare.

Cloud Storage

Les données radiographiques du thorax du NIH sont disponibles dans le bucket Cloud Storage suivant:

gs://gcs-public-data--healthcare-nih-chest-xray

Accéder à l'ensemble de données radiographiques du thorax du NIH dans Cloud Storage

Le bucket inclut des chemins d'accès aux fichiers PNG d'origine, ainsi qu'aux instances DICOM:

PNG (fourni par le NIH):

gs://gcs-public-data--healthcare-nih-chest-xray/png/FILENAME.png

DICOM (fourni par Google):

gs://gcs-public-data--healthcare-nih-chest-xray/dicom/FILENAME.dcm

Les buckets Cloud Storage utilisent le modèle "Paiements du demandeur" pour la facturation. Les frais associés à l'accès aux données du NIH seront facturés sur votre projet Google Cloud. Pour en savoir plus, consultez la section Paiements du demandeur.

BigQuery

Les données de radiographie du thorax du NIH sont disponibles dans le projet Google Cloud chc-nih-chest-xray dans BigQuery.

Accéder à l'ensemble de données radiographiques du thorax du NIH dans BigQuery

Pour en savoir plus sur l'accès aux données publiques dans BigQuery, consultez la page Ensembles de données publics BigQuery.

API Cloud Healthcare

Les données radiographiques du thorax du NIH sont disponibles dans la hiérarchie de magasins DICOM suivante dans l'API Cloud Healthcare:

Projet: chc-nih-chest-xray
Ensemble de données: nih-chest-xray
Magasin DICOM: nih-chest-xray

Pour demander l'accès à l'ensemble de données radiographiques du thorax du NIH, remplissez ce formulaire.

Accéder à l'ensemble de données radiographiques du thorax du NIH dans l'API Cloud Healthcare

Pour plus d'informations, consultez les sections Présentation de DICOM et Utiliser la norme DICOMweb.

Lecteurs de données

Vous pouvez également utiliser les lecteurs intégrés à l'API Cloud Healthcare :

eUnity: https://demo.eunity.app

IMS CloudVue: https://cloudvue.imstsvc.com

Libellés supplémentaires

Pour accéder aux étiquettes d'experts pour un sous-ensemble de l'ensemble de données ChestX-ray14 du NIH, remplissez le formulaire suivant. Une fois le formulaire rempli, vous pouvez télécharger les étiquettes.

Accéder au formulaire Google Forms pour obtenir les étiquettes

Les étiquettes ont été collectées dans le cadre de deux études indépendantes et sont décrites dans les articles suivants :

Il existe deux ensembles de libellés, chacun étant associé à l'une des études. Le premier ensemble de libellés est associé à l'étude publiée dans Radiology et se concentre sur quatre résultats de radiographie thoracique: opacité de l'espace aérien, pneumothorax, nodule/masse et fracture. Le deuxième ensemble de libellés est associé à l'étude publiée dans des rapports scientifiques et inclut les 14 résultats publiés dansl'ensemble de données d'origine et un libellé normal/anormal.

Quatre étiquettes d'experts pour les résultats

Dans l'article de Radiology, l'ensemble de libellés se concentre sur quatre résultats (opacité de l'espace aérien, pneumothorax, nodule/masse et fracture) et englobe la validation et les ensembles de test. Les libellés définitifs de chaque image ont été attribués par trois radiologues, à l'issue d'un examen décisionnel. Chaque image a été examinée de manière indépendante par trois radiologues. Pour chaque image de l'ensemble de test, les radiologues ont été sélectionnés au hasard parmi une cohorte de 11 radiologues agréés par l'American Board of Radiologie. Pour l'ensemble de validation, les trois radiologues ont été sélectionnés parmi une cohorte de 13 personnes, comprenant des radiologues certifiés et des internes en radiologie.

Les libellés n'ont été déclarés définitifs à l'issue du premier examen que sous réserve de l'accord de tous les lecteurs. Les images suscitant des désaccords concernant les libellés ont été renvoyées pour examen supplémentaire. Les libellés anonymes et les notes émises au cours des séries d'examen précédentes étaient également disponibles lors de chaque examen itératif. Le processus décisionnel s'est poursuivi jusqu'à l'obtention d'un consensus ou pendant un maximum de cinq séries d'examen. En cas d'absence de consensus concernant un petit nombre d'images, le libellé remportant la majorité des voix a été utilisé.

Les informations disponibles au moment de l'examen du radiologue n'incluaient que l'âge du patient et la vue des images (antérieure-postérieure (AP) ou postérieure-antérieure (PA)). Aucune information supplémentaire n'a été fournie. Pour les nodules/masses et pneumothorax, les étiquettes possibles étaient "present", "absent" ou "hedge" (c'est-à-dire incertain s'ils sont présents ou absents). Pour l'opacité et la fracture, les seules valeurs d'étiquette possibles étaient "present" ou "absent".

Les étiquettes se trouvent dans le répertoire four_findings_expert_labels. Dans individual_readers.csv, chaque ligne correspond à l'étiquette de chacune des quatre conditions fournies par un seul lecteur pour une seule image. Chaque ID d'image et le résultat d'arbitrage correspondant sont répétés sur plusieurs lignes (une ligne par lecteur). L'ID du lecteur est fourni afin d'établir un lien stable entre les images. Une valeur de cellule YES signifie "present", la valeur NO signifie "absent" et la valeur HEDGE signifie "incertain".

Dans validation_labels.csv et test_labels.csv, quatre colonnes ont été ajoutées pour les métadonnées fournies dans le cadre de l'ensemble de données radiographiques du thorax du NIH, une pour le libellé attribué pour chacune des quatre conditions : fracture, pneumothorax, opacité des espaces aériens, nodule/masse. Il existe 1 962 ID d'image uniques dans l'ensemble de test et 2 412 ID d'image uniques dans l'ensemble de validation, soit un total de 4 374 images pour lesquelles des libellés ont été attribués. Seules les valeurs YES et NO apparaissent dans les colonnes de libellés attribués. S'il manque une valeur dans une colonne, cela signifie que l'image n'a pas été incluse dans l'ensemble d'images pour lesquelles des libellés ont été attribués.

Lorsque vous utilisez ces libellés, veuillez inclure la citation suivante :

Anna Majkowska, Sid Mittal, David F. Steiner, Joshua J. Reicher, Scott Mayer McKinney, Gavin E. Duggan, Krish Eswaran, PoHsuan Cameron Chen, Yun Liu, Sreenivasa Raju Kalidindi, Alexander Ding, Greg S. Corrado, Daniel Tse, Shravya Shetty, Chest Radiograph Interpretation Using Deep Learning Models: Assessment Using Radiologist Adjudicated Reference Standards and Population-Adjusted Evaluation, Radiology, 2019.

Pour en savoir plus sur la licence et l'attribution de l'ensemble de données radiographiques du thorax du NIH, consultez la section Licence et attribution ci-dessus.

Toutes les étiquettes d'experts pour les résultats

Dans l'article sur les rapports scientifiques, l'ensemble d'étiquettes est axé sur les 14 résultats publiés dans l'ensemble de données d'origine et est apparenté à une étiquette normale/anormale. L'ensemble d'étiquettes ne contenait que des images de l'ensemble de test. Ces images sont identiques à celles incluses dans la division de test Four Findings Expert Labels, limitées aux radiographies du thorax avec la vue PA (810 images sur 1 962).

Les cinq mêmes radiologues agréés par l'American Board of Radiology ont révisé indépendamment chaque image. Chaque radiologue a d'abord été invité à déterminer si l'image contenait un résultat clinique potentiellement exploitable (libellé normale/anormale), et, le cas échéant, à sélectionner les 14 conditions présentes. Les seules informations disponibles pendant l'examen du radiologue étaient l'âge du patient et l'observation de l'image (AP/PA). Aucune information supplémentaire n'a été fournie.

Les étiquettes se trouvent dans le répertoire all_findings_expert_labels. Dans test_individual_readers.csv, chaque ligne correspond aux étiquettes d'un seul radiologue pour une seule image. Cela signifie que chaque ID d'image et ID de patient est répété sur plusieurs lignes (cinq lignes par image, une ligne par lecteur). Chaque ligne contient également un ID de lecteur permettant de distinguer les radiologues. Étant donné que cet ensemble contient un total de 810 images, test_individual_readers.csv contient 4 050 lignes avec 810 ID d'image uniques. test_individual_readers.csv contient également un total de 19 colonnes. En plus de l'ID d'image, de l'ID du patient et de l'ID du lecteur, il existe une colonne pour les résultats normaux/anormaux, une colonne pour chacun des 14 résultats, ainsi qu'une colonne pour Other indiquant que d'autres résultats anormaux sont présents (en dehors des 14 résultats spécifiés). Une valeur de cellule de YES signifie "present" et NO signifie "absent".

test_labels.csv contient les étiquettes de vérité terrain utilisées pour évaluer le système de deep learning dans l'article sur les rapports scientifiques. Chaque ligne contient les étiquettes de vérité terrain pour un seul ID d'image. Chaque ID d'image n'apparaît que sur une ligne, soit un total de 810 lignes. test_labels.csv comporte les mêmes colonnes que test_individual_readers.csv, mais sans colonne "ID de lecteur". Pour obtenir ces étiquettes, trois des cinq radiologues qui ont attribué une étiquette à cet ensemble ont été choisis au hasard en tant que "radiologues de vérité terrain" (les deux autres ont été utilisés comme points de comparaison). Ces radiologues de vérité terrain possèdent les ID de lecteur "4343882785", "4343883593" et "4343883996". Un vote majoritaire a été utilisé pour déterminer l'étiquette finale de l'étiquette normale/anormale et l'étiquette finale de chaque résultat. L'étiquette finale de la colonne Other a été déterminée comme étant YES si la majorité des radiologues ont sélectionné un résultat en dehors des 14 présents, ou si la majorité des radiologues ont indiqué que l'image était anormale, mais qu'aucun résultat n'avait été indiqué par la majorité des radiologues.

Lorsque vous utilisez ces libellés, veuillez inclure la citation suivante :

Zaid Nabulsi, Andrew Sellergren, Shahar Jamshy, Charles Lau, Eddie Santos, Atilla P. Kiraly, Wenxing Ye, Jie Yang, Sahar Kazemzadeh, Jin Yu, Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia Vicente, David Melnick, Greg S. Corrado, Lily Peng, Krish Eswaran, Daniel Tse, Neeral Beladia, Yun Liu, Po-Hsuan Cameron Chen, Shravya Shetty, Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19, Scientific Reports, 2021. https://doi.org/10.1038/s41598-021-93967-2

Pour en savoir plus sur la licence et l'attribution de l'ensemble de données radiographiques du thorax du NIH, consultez la section Licence et attribution.