Monitoraggio della provenienza e dei metadati di derivazione per i dati sanitari

Questo documento descrive come monitorare i metadati di provenienza e derivazione per i dati sanitari in Google Cloud per ricercatori, data scientist e team IT.

I metadati di provenienza e derivazione possono aiutare le organizzazioni sanitarie a tenere traccia della provenienza dei dati clinici e operativi, di cosa accade ai dati e della posizione in cui sono archiviati. Questo monitoraggio può aiutare la tua organizzazione a raggiungere i seguenti obiettivi quando utilizzi i dati sanitari:

  • Rispetta i criteri dell'organizzazione e i requisiti esterni.
  • Produci carichi di lavoro di elaborazione dati ripetibili, riproducibili e giustificabili.

I metadati di provenienza e derivazione hanno molti livelli di dati, a seconda del caso d'uso. Questo documento tratta tre livelli di dati, a livello di set di dati, di campo (colonna) e di record del paziente, e mostra come le funzionalità integrate in Google Cloud ti consentano di accedere e monitorare i metadati di provenienza e derivazione a questi livelli.

Provenienza dei dati

La provenienza dei dati è l'origine dei dati. È importante tenere traccia dell'origine che produce quali dati, soprattutto quando si armonizza più origini dati in uno schema comune. Per ulteriori informazioni, consulta Trasformazione e armonizzazione dei dati per BigQuery.

Le informazioni sulla provenienza sono utili anche quando esegui controlli di qualità dei dati o profilazioni dei dati. Ad esempio, se conosci l'origine dei dati, puoi decidere se soddisfano i tuoi standard di qualità o se devono essere puliti.

Esistono diversi modi per monitorare la provenienza in Google Cloud. Ad esempio, puoi monitorare la provenienza di set di dati arbitrari, come quelli in Cloud Storage, utilizzando una convenzione per i nomi file o una struttura di cartelle. Se l'origine dati è definita nella convenzione relativa ai nomi file, puoi utilizzare Cloud Data Fusion per analizzare il nome file e aggiungere il sistema di origine come elemento di dati strutturati nel set di dati. Ciò consente agli utenti downstream di filtrare per sistema di origine ed eseguire controlli di convalida in base alla provenienza dei dati. Ad esempio, la seguente struttura di nomi file viene analizzata in più sezioni:

gs://bucket-name/data-source/data-type/data-name-and-time

Nell'esempio di nome file precedente, l'origine dati è archiviata in un bucket, con il tipo di dati particolare in una sottosezione della cartella. Il nome del file è etichettato in base al nome dei dati e al relativo timestamp. Questa convenzione relativa ai nomi dei file viene analizzata durante l'elaborazione in modo che il bucket, la cartella e il nome possano essere aggiunti come elementi di dati separati nell'output finale.

Risorsa di provenienza FHIR

La specifica FHIR (Fast Healthcare Interoperability Resources), uno standard consolidato per lo scambio elettronico di informazioni sanitarie, include una risorsa per la gestione delle informazioni sulla provenienza. Se utilizzi gli strumenti di Google Cloud per le trasformazioni strutturali, puoi utilizzare la risorsa di provenienza FHIR per monitorare le trasformazioni strutturali e le mappature. Ogni elemento mappato restituisce una risorsa di provenienza, indipendentemente dal numero di risorse FHIR che produce. Questa risorsa consente di tenere traccia della derivazione a livello di record dei pazienti.

Derivazione dei dati

La derivazione dei dati è ciò che accade ai dati in ogni fase della pipeline. È importante monitorare quali trasformazioni avvengono in base ai dati nel caso in cui tu debba riprodurre il risultato o fornire informazioni a una terza parte. Cloud Data Fusion monitora automaticamente la derivazione dei dati per tutti i set di dati integrati a livello di set di dati e di campo. Questa funzionalità di acquisizione dei dati è uno strumento potente per ridurre il carico di lavoro per la gestione dei dati di derivazione, nonché per aiutare gli utenti a comprendere le pipeline di dati.

In qualità di servizio di integrazione dei dati completamente gestito, Cloud Data Fusion offre una Graphic User Interface (GUI) che consente di monitorare visivamente le pipeline e i campi di dati, nonché un'API che consente di estrarre i dati di derivazione archiviati in Cloud Data Fusion. Queste due interfacce ti consentono di lavorare con altre origini o dati di derivazione on-premise per gestire le trasformazioni dei dati in tutto l'ecosistema. Attualmente, Cloud Data Fusion supporta la derivazione a livello di set di dati e di campo.

best practice

Di seguito sono riportate alcune best practice per il monitoraggio dei dati di provenienza e derivazione in Google Cloud:

  • Abilita Cloud Logging quando crei un'istanza di Cloud Data Fusion. Abilita Cloud Logging anche con l'API Cloud Healthcare e con qualsiasi altro strumento o prodotto basato su cloud che utilizzi.
  • Utilizza Cloud Data Fusion per il maggior numero possibile di pipeline, perché è in grado di tenere traccia della derivazione solo per i processi eseguiti all'interno dell'istanza. Se vengono effettuate trasformazioni al di fuori dell'istanza, ad esempio in un cloud diverso o on-premise, assicurati di aver adottato le best practice per monitorare i dati. In alternativa, puoi utilizzare la piattaforma open source Cask Data Application Platform (CDAP) per acquisire informazioni.
  • Sincronizza i tag di dati e i tag di metadati in tutta l'organizzazione in modo che i tag siano disponibili per la ricerca tra unità aziendali.

Passaggi successivi