Gesundheitsdaten für BigQuery umwandeln und vereinheitlichen

In diesem Dokument werden die Prozesse und Überlegungen zur Vereinheitlichung von Gesundheitsdaten in Google Cloud für Forscher, Data Scientists und IT-Teams erläutert, die in BigQuery einen Data Lake für Analysen erstellen möchten.

Durch die Vereinheitlichung von Daten führen Sie Daten unterschiedlicher Dateiformate und Standards zusammen und wandeln sie dann in ein zusammenhängendes, standardisiertes Dataset um, das für detaillierte Analysen zur Verfügung steht. Zur Vereinheitlichung von Daten müssen Sie Datenquellen validieren und dann eine Reihe von Pipelines erstellen, um die Daten durch strukturelle Transformation, Konvertierung, Identitätsauflösung und De-Identifikation zu ändern.

Quelldaten validieren

Klinische Daten in ihrer Rohform können ungenau und unvollständig sein. Daher müssen Sie die Qualität der eingehenden Daten vor der Datenumwandlung bewerten. Eine Validierungsprüfung umfasst folgende Prozesse:

  • Sicherstellung, dass die erforderlichen Datenelemente vorhanden sind
  • Bestätigung der Anzahl der Daten, sodass das Quellsystem und der Aufnahme-Data-Lake die gleiche Anzahl an Daten haben
  • Bestätigung, dass die Wertebereiche angemessen sind, bevor Rechenressourcen eingesetzt werden

Google Cloud bietet folgende Möglichkeiten zur Validierung von Quelldaten:

  • Cloud Data Fusion bereitet Daten so vor, dass Sie eine kleine Teilmenge von Daten (maximal 1.000 Zeilen) ansehen und untersuchen können.
  • Mit BigQuery können Sie viele Validierungen mit SQL durchführen. Wenn die Daten Diskrepanzen aufweisen, können Sie eine Ansicht erstellen, um den erkannten Nutzern Zugriff zur Validierung zu gewähren, oder ausgewählte Zeilen in Google Tabellen exportieren, um Anmerkungen hinzuzufügen und mit einem Team zusammenzuarbeiten.
  • Für automatische Datenqualitätsprüfungen können Sie mithilfe von Cloud Data Fusion benutzerdefinierte Anweisungen (UDDs) erstellen. Mit UDDs können Sie benutzerdefinierte Verarbeitungen, Datenprüfungen und Funktionen in Cloud Data Fusion angeben. Wenn UDDs erstellt werden, ist auch das automatische Markieren von Ausreißern möglich.

Daten umwandeln und Pipeline erstellen

Die strukturelle Umwandlung ist ein wichtiger Schritt beim Erstellen einer Pipeline zur Datenumwandlung und umfasst Daten zur Feldzuordnung, zum Parsen und Formatieren von Daten.

Wenn Sie die Cloud Healthcare API als Aufnahmemethode verwenden, müssen Sie keine Daten parsen oder indexieren. Die Cloud Healthcare API bietet Flexibilität bei eingehenden Datenformaten und akzeptiert Ressourcen und Sets in mehrzeiligen JSON-Formaten und durch Zeilenumbruch getrennte JSON-Formate. Wenn Sie beispielsweise mit dem Datentyp Fast Healthcare Interoperability Resources (FHIR) arbeiten, müssen Sie keinen benutzerdefinierten JSON-Parser entwickeln. Stattdessen können Sie die integrierten Funktionen der Cloud Healthcare API verwenden, um die Daten aufzunehmen.

Sie können auch eine strukturelle Umwandlung für Conversions durchführen, z. B. einen HL7v2-Datentyp in einen FHIR-Datentyp oder einen FHIR-Datentyp in das Schema SQL on FHIR umwandeln.

Cloud Data Fusion bietet eine Vielzahl von vordefinierten Plug-ins zum Parsen, Formatieren, Komprimieren und Konvertieren von Daten. Cloud Data Fusion enthält auch Wrangler, ein Visualisierungstool, das die Daten basierend auf einer kleinen Stichprobe (1.000 Zeilen) des Datasets interaktiv filtert, bereinigt, formatiert und projiziert. Nachdem Sie die Umwandlung definiert haben, generiert Wrangler automatisch eine Dataproc-Pipeline, die die Änderungen auf das gesamte Dataset anwendet.

Für komplexere Umwandlungen können Sie eine konfigurationsbasierte Zuordnungssprache für die Definition, Verwaltung und Übertragbarkeit von strukturellen Zuordnungen verwenden.

Patientenidentität auflösen

Ein wichtiger Schritt bei der Datenumwandlung besteht darin, Datensätze den entsprechenden eindeutigen Patienten-IDs zuzuordnen. Durch den Abgleich von Datensätzen können Sie einen Long Term-Datensatz erstellen, mit dem Inkonsistenzen und Duplikate in den Daten identifiziert und konsistente Datenumwandlungen für einzelne Patientendatensätze sichergestellt werden können. Sie können Patientendatensätze abgleichen, indem Sie einen Master-Patientenindex (MPI) mit benutzerdefinierten Pipelines oder Modellen aufrufen. Wenn Sie die Daten über FHIR konsolidieren, gibt es auch einen Suchparameter für die Patienten-ID, mit dem Sie Datensätze zusammenführen können.

Terminologie konvertieren

Umgebungen für klinische Terminologie ändern sich häufig aufgrund von Programmiersystemen, Verwaltungsgremien und Organisationsanforderungen. Wenn Sie historische Datensätze mit neu erstellten Ressourcen kombinieren, kann es zu Inkonsistenzen zwischen der alten und der aktuellen Terminologie kommen. Durch die Umwandlung und Vereinheitlichung von Fachbegriffen wird gewährleistet, dass alte und neue Terminologiestandards konsistent sind.

Maßeinheiten konvertieren

Maßeinheiten können je nach den Aufnahmequellen, den Organisationen, die die Messung durchführen, und der geografischen Region stark variieren. In den USA wird das Gewicht eines Babys beispielsweise oft in Gramm gemessen, das Gewicht eines Erwachsenen dagegen in der Regel in Pfund. Durch die Umrechnung und Vereinheitlichung von Maßeinheiten wird gewährleistet, dass in Analysen alle Maßeinheiten erfasst und alle Patientengruppen berücksichtigt werden.

Daten de-identifizieren

Die De-Identifikation ist der letzte Schritt im Umformungsprozess, da sie die Möglichkeit zur Vereinheitlichung von Daten beeinträchtigen kann, insbesondere bei der Identitätsauflösung und der Extraktion von Entitäten. Wenn Sie z. B. zu früh in der Pipeline de-identifizieren, können Sie möglicherweise nicht die genaue Identitätsauflösung durchführen, die für die Vereinheitlichung erforderlich ist. Google Cloud bietet viele Optionen, z. B. Anpassungen, mit denen Sie Gesundheitsdaten de-identifizieren und pseudonymisieren können.

Für unstrukturierte Textdaten oder herkömmliche strukturierte Daten wie CSVs können Sie Sensitive Data Protection verwenden, um sensible Datenelemente zu klassifizieren und zu entfernen. Mit Sensitive Data Protection können Sie auch die De-Identifikation für Ihre Sicherheitsanforderungen und Anwendungsfälle mit Methoden wie Maskierung, sicherem Hashing, Tokenisierung, Bucketing oder formaterhaltender Verschlüsselung anpassen.

Die Cloud Healthcare API verfügt auch über integrierte De-Identifizierungsfunktionen, die für DICOM- (Digital Imaging and Communications in Medicine) und FHIR-Datasets verfügbar sind. Diese Option ist nützlich, wenn Sie das ursprüngliche Datenmodell beibehalten möchten.

Wenn Sie Zeitreihendaten im FHIR-Format verarbeiten, können Sie die Reihenfolge der Ressourcen basierend auf dem UPI beibehalten. Das bedeutet, dass Sie bei Verwendung der Datumsverschiebungsfunktion sicher sein können, dass die Reihenfolge der Ressourcen beibehalten wird.

Zwischenspeicher verwenden

Als Best Practice hat es sich bewährt, die Ergebnisse jeder Umwandlung in einem Zwischenspeicher, einem sitzungsspezifischen mittleren Speicher, zu speichern. So können Sie Probleme beheben oder im Fall einer Notfallwiederherstellung zu einem vorherigen Status der Datenumwandlung zurückkehren. Sie können den Zwischenspeicher bei jeder Ausführung der Pipeline in Form eines Rohexports nach Cloud Storage in BigQuery neu schreiben.

Informationen zur Pipelinearchitektur

Das folgende Diagramm zeigt die Pipelines für die Datenumwandlung und -vereinheitlichung.

Pipelines für die Datenumwandlung und -vereinheitlichung

Das Diagramm oben zeigt den gesamten Prozess der Daten, die sich durch die Pipelines bewegen, einschließlich aller Schritte der Umwandlung und der Vereinheitlichung. Die Daten werden zuerst als Rohdaten aufgenommen. Dann durchlaufen sie die Pipeline zur strukturellen Umwandlung und die Pipeline zur Identitätsauflösung. Die Daten werden dann weiteren Umwandlungen unterzogen (z. B. Terminologiekonvertierung und De-Identifikation) und durch die Ausgabepipeline zu BigQuery geleitet, wo sie als einheitliche Daten gespeichert werden, die zur Analyse bereitstehen. Darüber hinaus werden Metadaten im Zwischenspeicher automatisch zur Laufzeit geschrieben und in BigQuery als Herkunftsdaten gespeichert.

Das Diagramm zeigt auch zwei Zwischenspeicherschritte, bei denen Sie am besten jedes Dataset zwischen Pipelinephasen speichern können.

Nächste Schritte