Trasformazione e armonizzazione dei dati sanitari per BigQuery

Questo documento descrive i processi e le considerazioni coinvolti per armonizzare i dati sanitari in Google Cloud per ricercatori, data scientist e team IT che vogliono creare un data lake di analisi in BigQuery.

Armonizzando i dati, riunisci dati di diversi formati e standard e li trasformi in un unico set di dati coeso e standardizzato pronto per un'analisi approfondita. Per armonizzare i dati, devi convalidare le origini dati e quindi creare una serie di pipeline per modificarli tramite la trasformazione strutturale, la conversione, la risoluzione delle identità e l'anonimizzazione.

Convalida dei dati di origine in corso...

I dati clinici possono essere imprecisi e incompleti nella loro forma non elaborata, quindi è necessario valutare la qualità dei dati in entrata prima della trasformazione dei dati. Un controllo di convalida include i seguenti processi:

  • Garantisce che siano presenti gli elementi di dati necessari.
  • Conferma il conteggio dei dati in modo che il sistema di origine e il data lake di importazione contengano lo stesso numero di conteggi di dati.
  • Conferma che gli intervalli di valori sono ragionevoli prima di investire le risorse di calcolo.

Google Cloud offre i seguenti modi per convalidare i dati di origine:

  • Cloud Data Fusion prepara i dati in modo da permetterti di visualizzare ed esplorare un piccolo sottoinsieme di dati (massimo 1000 righe).
  • BigQuery ti consente di eseguire molte convalide con SQL. In caso di discrepanze nei dati, puoi creare una vista per concedere l'accesso agli utenti identificati per la convalida o esportare le righe selezionate in Fogli Google per l'annotazione e la collaborazione con un team.
  • Per i controlli automatici della qualità dei dati, puoi creare direttive definite dall'utente (UDD) utilizzando Cloud Data Fusion. I modelli UDD consentono di specificare elaborazione personalizzata, controlli dei dati e funzioni all'interno di Cloud Data Fusion. La creazione di UDD abilita anche la segnalazione automatica dei valori anomali.

Trasformazione dei dati e creazione di una pipeline

La trasformazione strutturale è un passaggio importante nella creazione di una pipeline di trasformazione dei dati e include la mappatura dei campi, l'analisi e la formattazione dei dati.

Se utilizzi l'API Cloud Healthcare come metodo di importazione, non è necessario analizzare o indicizzare i dati. L'API Cloud Healthcare offre flessibilità con i formati di dati in entrata, accetta risorse e bundle sia in formati JSON multilinea sia in formati JSON delimitati da nuova riga. Ad esempio, se utilizzi il tipo di dati Fast Healthcare Interoperability Resources (FHIR), non devi sviluppare un parser JSON personalizzato. Puoi invece usare le funzionalità integrate dell'API Cloud Healthcare per importare i dati.

Puoi anche eseguire una trasformazione strutturale per le conversioni, ad esempio convertendo un tipo di dati HL7v2 in un tipo di dati FHIR o convertendo un tipo di dati FHIR in SQL su schema FHIR.

Cloud Data Fusion offre un'ampia gamma di plug-in predefiniti per analizzare, formattare, comprimere e convertire i dati. Cloud Data Fusion include anche Wrangler, uno strumento di visualizzazione che filtra, pulisce, formatta e proietta in modo interattivo i dati sulla base di un piccolo campione (1000 righe) del set di dati. Dopo aver definito la trasformazione, Wrangler genera automaticamente una pipeline Dataproc che applica le modifiche all'intero set di dati.

Per trasformazioni più avanzate, puoi usare un linguaggio di mappatura basato sulla configurazione per la definizione, la gestione e la portabilità delle mappature strutturali.

Risolvere l'identità del paziente

Un passaggio importante nella trasformazione dei dati è l'abbinamento dei record ai corrispondenti identificatori di pazienti (UPI) corrispondenti. Abbinando i record, puoi creare un record longitudinale che può aiutarti a identificare incoerenze e duplicazioni nei dati e a garantire trasformazioni coerenti dei dati tra le cartelle dei singoli pazienti. Puoi associare i record dei pazienti chiamando un indice di pazienti master (MPI) con pipeline o modelli personalizzati. Se stai consolidando i dati tramite FHIR, c'è anche un parametro di ricerca degli identificatori del paziente che puoi utilizzare per unire i record.

Conversione della terminologia

Gli ambienti della terminologia clinica cambiano spesso a causa dei sistemi di codifica, degli enti governativi e delle esigenze organizzative. Quando combini i documenti storici con le risorse appena create, possono emergere incongruenze tra la terminologia precedente e quella attuale. La conversione e l'armonizzazione dei termini clinici aiutano a garantire coerenza e continuità tra standard terminologici vecchi e nuovi.

Conversione delle unità di misura

Le unità di misura possono variare ampiamente, in base alle origini di importazione, alle organizzazioni che eseguono la misurazione e alla regione geografica. Negli Stati Uniti, ad esempio, il peso di un bambino viene spesso misurato in grammi, mentre il peso di un adulto si misura in libbre. La conversione e l'armonizzazione delle unità di misura contribuiscono a garantire che l'analisi acquisisca tutte le unità di misura e includa tutte le popolazioni di pazienti.

Anonimizzazione dei dati

L'anonimizzazione è l'ultima fase del processo di trasformazione perché può interferire con la capacità di armonizzare i dati, soprattutto nella risoluzione delle identità e nell'estrazione delle entità cliniche. Ad esempio, se anonimizzi troppo presto nella pipeline, potresti non essere in grado di eseguire la risoluzione accurata delle identità necessaria per l'armonizzazione. Google Cloud offre molte opzioni, incluse le personalizzazioni, per aiutarti a anonimizzare i dati sanitari e assegnarvi pseudonimi.

Per dati di testo non strutturati o dati strutturati tradizionali come i file CSV, puoi utilizzare Sensitive Data Protection per classificare e oscurare elementi di dati sensibili. Sensitive Data Protection consente inoltre di personalizzare l'anonimizzazione in base alle esigenze e ai casi d'uso di sicurezza utilizzando tecniche come mascheramento, hashing sicuro, tokenizzazione, bucketing e crittografia con protezione del formato.

L'API Cloud Healthcare ha anche funzionalità di anonimizzazione integrate nell'API, disponibili per i set di dati FHIR Digital Imaging and Communications in Medicine (DICOM) e FHIR. Questa opzione è utile quando vuoi conservare il modello dei dati iniziale.

Se gestisci i dati delle serie temporali nel formato FHIR, puoi preservare la sequenza delle risorse basate sull'UPI. Ciò significa che quando utilizzi la funzionalità di spostamento della data, puoi avere la certezza che l'ordine delle risorse venga mantenuto.

Utilizzo dello spazio di archiviazione intermedio

Come best practice, archivia i risultati di ogni trasformazione in uno spazio di archiviazione intermedio, ovvero un'archiviazione intermedia temporanea, in modo da poter risolvere i problemi o tornare a uno stato precedente di trasformazione dei dati in un caso di ripristino di emergenza. Puoi riscrivere l'archiviazione intermedia ogni volta che viene eseguita la pipeline, sotto forma di esportazione non elaborata in Cloud Storage in BigQuery.

Informazioni sull'architettura della pipeline

Il seguente diagramma mostra le pipeline per la trasformazione e l'armonizzazione dei dati.

Pipeline per la trasformazione e l'armonizzazione dei dati.

Il diagramma precedente mostra l'intero processo di spostamento dei dati attraverso le pipeline, inclusi tutti i passaggi necessari per la trasformazione e l'armonizzazione. I dati vengono prima importati come dati non elaborati, quindi seguono la pipeline di trasformazione strutturale e di risoluzione delle identità. I dati vengono quindi sottoposti a ulteriori trasformazioni, ad esempio conversione terminologica e anonimizzazione, e passano attraverso la pipeline di output a BigQuery, dove vengono archiviati come dati armonizzati pronti per l'analisi. Inoltre, i metadati nello spazio di archiviazione intermedio vengono scritti automaticamente durante il runtime e archiviati in BigQuery come dati di provenienza e derivazione.

Il diagramma mostra anche due passaggi di archiviazione intermedi in cui, come best practice, puoi archiviare ciascun set di dati tra le fasi della pipeline.

Passaggi successivi