Ingérez des données médicales et opérationnelles avec Cloud Data Fusion

Ce document explique aux chercheurs, aux data scientists et aux équipes informatiques comment Cloud Data Fusion permet de déverrouiller des données en les ingérant, en les modifiant et en les stockant dans BigQuery, un entrepôt de données agrégées sur Google Cloud.

Les entreprises du secteur de la santé s'appuient sur les données pour gérer leurs cas d'utilisation d'analyses médicales, mais la plupart des données sont verrouillées dans des systèmes cloisonnés. Ce document explique comment accéder à ces données à l'aide de Cloud Data Fusion.

Utiliser Cloud Data Fusion comme service d'intégration de données

Cloud Data Fusion est un service d'intégration de données cloud natif et entièrement géré, qui offre une large bibliothèque de transformations Open Source et plus de 100 plug-ins disponibles permettant d'accéder à un large éventail de systèmes et formats de données.

Cloud Data Fusion vous permet d'ingérer et d'intégrer des données brutes provenant de diverses sources, et de les transformer. Par exemple, vous pouvez utiliser Cloud Data Fusion pour fusionner ou joindre des sources de données avant d'écrire dans BigQuery pour analyser les données.

Les données brutes proviennent de sources de données pouvant se présenter sous divers formats : bases de données relationnelles, systèmes de fichiers, mainframes et autres systèmes anciens, systèmes de cloud public et Google Cloud. Les destinations Cloud Data Fusion, également appelées récepteurs, sont les emplacements où les données sont écrites (par exemple, Cloud Storage et BigQuery).

Utiliser Cloud Storage comme lac de données

Vous pouvez utiliser Cloud Storage comme point de collecte pour les données que vous prévoyez de migrer dans le cloud. Vous pouvez également l'utiliser comme lac de données. Avec ses nombreux connecteurs, Cloud Data Fusion remplit le lac de données à partir de systèmes sur site.

Ingérer des types de données cliniques à l'aide de l'API Cloud Healthcare

L'API Cloud Healthcare offre une solution gérée pour l'ingestion, le stockage et l'accès aux données médicales dans Google Cloud, créant ainsi un lien essentiel entre les systèmes de soins existants et les applications basées sur Google Cloud. Dans l'API Cloud Healthcare, chaque datastore spécifique à une modalité et son API associée sont conformes aux normes en vigueur. L'API Cloud Healthcare est compatible avec les types de données FHIR (Fast Healthcare Interoperability Resources), HL7v2 et DICOM (Digital Imaging and Communications in Medicine. Pour en savoir plus, consultez la page Présentation de l'API Cloud Healthcare.

Récemment, les organisations de santé ont utilisé le type de données FHIR pour les dossiers médicaux électroniques et les systèmes de santé afin d'étendre leur capacité à interroger les données médicales sur l'ensemble des organisations. Si votre organisation a accès à FHIR, vous pouvez utiliser l'API Cloud Healthcare pour ingérer des données FHIR et effectuer des importations groupées de données cliniques.

L'API Cloud Healthcare est compatible avec plusieurs versions de FHIR. Pour plus d'informations sur les versions et les fonctionnalités compatibles, consultez la déclaration de conformité FHIR.

Ingérer d'autres données structurées

Pour une capacité d'intégration de données étendue, les produits Google Cloud décrits dans ce document peuvent gérer des formats de données structurées courants tels que CSV, JSON, Avro, ORC et Parquet. En outre, Cloud Storage peut ingérer n'importe quel format de données en tant que stockage de blob. Pour en savoir plus, consultez la section Charger des données depuis Cloud Storage vers BigQuery.

L'importateur de données brutes Open Source pour BigQuery peut importer des données brutes dans BigQuery et dispose des fonctionnalités suivantes :

  • Décompression automatique des fichiers d'entrée, compatible avec divers formats, y compris les formats gzip, LZ4, tar et zip
  • Détection de schéma d'ensembles de données complets
  • Propre chargement en parallèle baséesur Cloud Dataflow

L'outil d'importation de données n'est pas limité aux données médicales. Vous pouvez utiliser cet outil pour importer tout type d'ensemble de données dans un format compatible vers BigQuery afin de procéder à une analyse plus approfondie. Actuellement, l'outil est compatible avec les types de données CSV.

Charger des données

Il existe deux types de chargement de données : complet et incrémentiel. Le chargement initial complet est constitué des données de chargement par lots qui résident dans des entrepôts de données sur site dans l'entrepôt de données cloud, BigQuery. Ce chargement complet n'est effectué qu'une seule fois.

Un processus de chargement incrémentiel suit souvent l'ingestion complète initiale, afin de synchroniser les données dans le cloud avec le stockage de données principal. Les charges incrémentielles peuvent prendre la forme de vidages de base de données périodiques ou de flux en temps réel. Pour les mises à jour périodiques, vous pouvez charger un lot de mises à jour de base de données dans Cloud Storage, puis les intégrer dans l'entrepôt de données cloud. Pour les mises à jour en temps réel, vous pouvez configurer la duplication de base de données en temps réel à l'aide de bases de données de traitement des transactions en ligne (OLTP, Online Transaction Processing) ou de protocoles de messagerie, tels que le streaming HL7v2. Pour en savoir plus, consultez les options de transfert de données dans le cloud.

Transférer des ensembles de big data

Pour transférer des ensembles de big data vers Google Cloud, vous devez prendre en compte la durée, le coût et la complexité du transfert. Pour en savoir plus, consultez la page Stratégies de transfert d'ensembles de données volumineux.

Cycle de vie des données

L'ingestion de données n'est que la première étape du cycle de vie des données. Google Cloud fournit des technologies tout au long du cycle de vie des données, y compris l'ingestion, le stockage, l'analyse et la visualisation.

Étape suivante