Ce document explique comment suivre les métadonnées de provenance et de traçabilité des données médicales dans Google Cloud pour les chercheurs, les data scientists et les équipes informatiques.
Les métadonnées de provenance et de traçabilité peuvent aider les organisations du secteur de la santé à suivre l'origine de leurs données cliniques et opérationnelles, ce qu'il advient des données et leur emplacement de stockage. Ce suivi peut aider votre organisation à atteindre les objectifs suivants lorsque vous travaillez avec des données de santé :
- Respecter les règles d'administration et les exigences externes.
- Produire des charges de travail de traitement des données reproductibles et justifiables.
Les métadonnées de provenance et de traçabilité ont de nombreux niveaux de données, en fonction du cas d'utilisation. Ce document couvre trois niveaux de données : niveau d'ensemble de données, niveau de champ (colonne) et niveau d'enregistrement de patient. Il montre en également comment les fonctionnalités intégrées dans Google Cloud vous permettent d'accéder aux métadonnées de provenance et de traçabilité dans ces niveaux.
Provenance des données
La provenance des données correspond à l'origine de vos données. Il est important de savoir à tout moment quelle source produit quelle donnée, en particulier lorsque vous harmonisez plusieurs sources de données sur un schéma commun.
Les informations concernant la provenance sont également utiles lorsque vous exécutez des contrôles de qualité ou effectuez un profilage des données. Par exemple, si vous connaissez l'origine des données, vous pouvez décider si elles répondent à vos critères de qualité ou si elles doivent être nettoyées.
Il existe plusieurs façons de suivre la provenance dans Google Cloud. Par exemple, vous pouvez suivre la provenance des ensembles de données arbitraires, tels que ceux de Cloud Storage, à l'aide d'une convention de dénomination des fichiers ou d'une structure de dossiers. Si la source de données est définie dans la convention de dénomination des fichiers, vous pouvez utiliser Cloud Data Fusion pour analyser le nom du fichier et ajouter le système source en tant qu'élément de données structurées dans l'ensemble de données. Cela permet aux utilisateurs en aval d'établir un filtre par système source et d'exécuter des contrôles de validation basés sur la provenance des données. Par exemple, la structure de noms de fichier suivante est analysée en plusieurs sections :
gs://bucket-name/data-source/data-type/data-name-and-time
Dans l'exemple de nom de fichier précédent, la source de données est stockée dans un bucket, avec le type de données particulier dans une sous-section de dossier. Le nom du fichier est libellé par le nom des données et son horodatage. Cette convention de dénomination des fichiers est analysée lors du traitement de sorte que le bucket, le dossier et le nom puissent chacun être ajoutés en tant qu'éléments de données distincts dans le résultat final.
Ressource des informations de provenance FHIR
La spécification FHIR (Fast Healthcare Interoperability Resources), une norme établie pour l'échange électronique d'informations médicales, comprend une ressource permettant de conserver les informations de provenance.
Traçabilité des données
La traçabilité des données est ce qu'il advient des données à chaque étape du pipeline. Il est important de suivre quelles transformations sont effectuées et à quelles données elles s'appliquent au cas où vous auriez besoin de reproduire le résultat ou de fournir des informations à un tiers. Cloud Data Fusion assure automatiquement le suivi de la traçabilité des données pour tous les ensembles de données intégrés au niveau des ensembles de données et au niveau des champs. Cette fonctionnalité de capture de données est un outil puissant permettant de réduire la charge de travail de gestion des données de traçabilité, et d'aider les utilisateurs à comprendre les pipelines de données.
En tant que service d'intégration de données entièrement géré, Cloud Data Fusion fournit une interface utilisateur graphique (IUG) qui vous permet de suivre visuellement les pipelines et les champs de données, ainsi qu'une API qui vous permet d'extraire les données de traçabilité stockées dans Cloud Data Fusion. Ces deux interfaces vous permettent de travailler avec d'autres sources ou des données de traçabilité sur site pour gérer les transformations de données dans l'écosystème. Actuellement, Cloud Data Fusion est compatible avec la traçabilité au niveau de l'ensemble de données et au niveau du champ.
Bonnes pratiques
Voici quelques bonnes pratiques à appliquer pour suivre les données de provenance et de traçabilité dans Google Cloud :
- Activez Cloud Logging lorsque vous créez une instance Cloud Data Fusion. Activez également Cloud Logging avec l'API Cloud Healthcare et les autres outils ou produits basés sur le cloud que vous utilisez.
- Utilisez Cloud Data Fusion pour la plus grande partie possible de votre pipeline, car il peut suivre la traçabilité uniquement pour les processus exécutés à l'intérieur de l'instance. Si des transformations se produisent en dehors de l'instance, par exemple dans un cloud différent ou sur site, assurez-vous que vous disposez de bonnes pratiques en place pour suivre les données. Vous pouvez également passer par une plate-forme CDAP (Cask Data Application Platform) Open Source pour capturer des informations.
- Synchronisez les tags de données et les tags de métadonnées dans votre organisation afin qu'il soit possible de les rechercher dans les unités commerciales.
Étape suivante
- Documentation Cloud Data Fusion.
- Solutions pour le secteur médical et les sciences de la vie disponibles sur Google Cloud Marketplace
- Découvrez des architectures de référence, des schémas et des bonnes pratiques concernant Google Cloud. Consultez notre Centre d'architecture cloud.