Importazione di dati clinici e operativi con Cloud Data Fusion

Questo documento spiega a ricercatori, data scientist e team IT in che modo Cloud Data Fusion può sbloccare i dati importando, trasformando e archiviando i dati in BigQuery, un data warehouse aggregato su Google Cloud.

Le organizzazioni sanitarie si affidano ai dati per guidare i loro casi d'uso di analisi del settore sanitario, ma la maggior parte dei dati è bloccata in sistemi isolati. Questo documento mostra come accedere a questi dati con Cloud Data Fusion.

Utilizzo di Cloud Data Fusion come servizio di integrazione dei dati

Cloud Data Fusion è un servizio di integrazione dei dati cloud-native completamente gestito con un'ampia libreria di trasformazioni open source e oltre 100 plug-in disponibili che forniscono un'ampia gamma di sistemi e formati di dati.

Cloud Data Fusion ti consente di importare e integrare dati non elaborati provenienti da varie origini, nonché di trasformarli. Ad esempio, puoi utilizzare Cloud Data Fusion per combinare o unire le origini dati prima di scrivere in BigQuery per analizzare i dati.

I dati non elaborati vengono ricavati da origini dati, che possono essere sotto forma di database relazionali, file system, mainframe e altri sistemi legacy, sistemi cloud pubblico e Google Cloud. Le destinazioni di Cloud Data Fusion, note anche come sink, sono le località in cui vengono scritti i dati, ad esempio Cloud Storage e BigQuery.

Utilizzo di Cloud Storage come data lake

Puoi utilizzare Cloud Storage come punto di raccolta per i dati che prevedi di spostare nel cloud e anche come data lake. Con i suoi numerosi connettori, Cloud Data Fusion completa il data lake da sistemi on-premise.

Importazione di tipi di dati clinici tramite l'API Cloud Healthcare

L'API Cloud Healthcare è una soluzione gestita per l'importazione, l'archiviazione e l'accesso ai dati sanitari su Google Cloud, creando un ponte critico tra i sistemi sanitari e le applicazioni in hosting nel cloud. Nell'API Cloud Healthcare, ogni datastore specifico della modalità e l'API associata sono conformi agli standard attuali. L'API Cloud Healthcare supporta i tipi di dati FHIR (Fast Healthcare Interoperability Resources), HL7v2 e Digital Imaging and Communications in Medicine (DICOM). Per ulteriori informazioni, consulta la conoscenza dell'API Cloud Healthcare.

Recentemente, le organizzazioni sanitarie hanno utilizzato il tipo di dati FHIR per le cartelle cliniche elettroniche (EHR) e i sistemi sanitari per espandere la capacità di eseguire query sui dati clinici tra le organizzazioni. Se la tua organizzazione ha accesso a FHIR, puoi utilizzare l'API Cloud Healthcare per importare i dati FHIR per i caricamenti collettivi di dati clinici.

L'API Cloud Healthcare supporta più versioni di FHIR. Per ulteriori informazioni sulle versioni e sulle funzionalità supportate, consulta la dichiarazione di conformità FHIR.

Importazione di altri dati strutturati

Per una maggiore capacità di integrazione dei dati, i prodotti Google Cloud descritti in questo documento sono in grado di gestire formati di dati strutturati comuni, come CSV, JSON, Avro, ORC e Parquet. Inoltre, Cloud Storage può importare qualsiasi formato di dati come archiviazione blob. Per ulteriori informazioni, vedi Come caricare dati da Cloud Storage a BigQuery.

L'importatore di dati non elaborati open source per BigQuery può importare dati non elaborati in BigQuery e presenta le seguenti funzionalità:

  • Decompressione automatica dei file di input, con supporto di diversi formati, tra cui gzip, LZ4, tar e zip
  • Rilevamento dello schema completo del set di dati
  • Corretta parallelizzazione basata su Dataflow

Lo strumento di importazione dati non si limita ai dati sanitari. Puoi utilizzare lo strumento per importare qualsiasi tipo di set di dati in un formato supportato in BigQuery per ulteriori analisi. Attualmente lo strumento supporta i tipi di dati CSV.

Caricamento dei dati

Esistono due forme di caricamento dei dati: completo e incrementale. Il caricamento completo iniziale consiste nel caricamento in batch dei dati che risiedono nei data warehouse on-premise e nel data warehouse su cloud, BigQuery. Questo caricamento completo viene eseguito una sola volta.

Un processo di caricamento incrementale spesso segue l'importazione completa iniziale, con l'obiettivo di mantenere i dati nel cloud sincronizzati con l'archiviazione principale dei dati. I caricamenti incrementali possono assumere la forma di dump periodici del database o flussi di dati in tempo reale. Per aggiornamenti periodici, puoi caricare un batch di aggiornamenti del database in Cloud Storage e quindi incorporare gli aggiornamenti nel data warehouse su cloud. Per gli aggiornamenti in tempo reale, puoi configurare la replica dei database in tempo reale utilizzando database di elaborazione delle transazioni online (OLTP) o protocolli di messaggistica, come il flusso di dati HL7v2. Per ulteriori informazioni, vedi le opzioni per il trasferimento di dati nel cloud.

Trasferimento di grandi set di dati

Per trasferire set di dati di grandi dimensioni a Google Cloud, è necessario considerare durata, costo e complessità del trasferimento. Per ulteriori informazioni, consulta le strategie per il trasferimento di set di dati di grandi dimensioni.

Ciclo di vita dei dati

L'importazione dati è solo il primo passo del ciclo di vita dei dati. Google Cloud fornisce tecnologie durante l'intero ciclo di vita dei dati, tra cui importazione, archiviazione, analisi e visualizzazione.

Passaggi successivi