Daten-De-Identifikation

Der Prozess des Entfernens von identifizierenden Informationen aus Daten wird auch De-Identifikation genannt. Die Cloud Healthcare API erkennt sensible Daten in DICOM-Instanzen und FHIR-Ressourcen wie geschützte Gesundheitsinformationen (PHI) und verwendet dann eine De-Identifikationstransformation, um die Daten zu maskieren, zu löschen oder anderweitig zu verdecken. Die De-Identifikation hat mehrere Anwendungsfälle, darunter:

  • Teilen medizinischer Daten mit nicht berechtigten Parteien
  • Erstellen von Datasets aus mehreren Quellen mit anschließender Analyse
  • Anonymisieren von Daten, damit sie in Modellen für maschinelles Lernen verwendet werden können

Übersicht über die De-Identifikation

Die De-Identifikation funktioniert auf den folgenden Ebenen:

  • Auf Dataset-Ebene. Die De-Identifikation erfolgt für alle Daten in DICOM-Speichern und FHIR-Speichern im Dataset. Wenn ein Dataset sowohl DICOM-Instanzen als auch FHIR-Ressourcen enthält, können Sie alle Instanzen und Ressourcen gleichzeitig de-identifizieren.

    Rufen Sie die Cloud Healthcare API-Methode datasets.deidentify auf, um sensible Daten auf Dataset-Ebene zu de-identifizieren.
  • Auf der Ebene des FHIR-Speichers. Die De-Identifikation erfolgt für alle Daten in einem bestimmten FHIR-Speicher in einem Dataset.

    Rufen Sie die Cloud Healthcare API-Methode fhirStores.deidentify auf, um vertrauliche Daten auf FHIR-Speicherebene zu de-identifizieren
  • Auf DICOM-Speicherebene. Die De-Identifikation erfolgt für alle Daten in einem bestimmten DICOM-Speicher in einem Dataset.

    Rufen Sie die Cloud Healthcare API-Methode dicomStores.deidentifyauf, um vertrauliche Daten auf DICOM-Speicherebene zu de-identifizieren.

Die De-Identifikation wirkt sich nicht auf das ursprüngliche Dataset, den FHIR-Speicher, den DICOM-Speicher oder die Originaldaten aus. Je nachdem, wie Sie die De-Identifikation konfigurieren, verhält sich der Vorgang so:

  • Wenn Sie Daten auf Dataset-Ebene de-identifizieren, werden de-identifizierte Kopien der Originaldaten in ein neues Dataset geschrieben, das als Ziel-Dataset bezeichnet wird.
  • Wenn Sie Daten auf DICOM- oder FHIR-Speicherebene de-identifizieren, werden de-identifizierte Kopien der Originaldaten in einen vorhandenen DICOM- oder FHIR-Speicher in einem vorhandenen Dataset geschrieben. Der DICOM-Ausgabespeicher und der FHIR-Speicher werden als DICOM-Zielspeicher bzw. FHIR-Zielspeicher bezeichnet.

Das Quell-Dataset, der FHIR-Speicher oder der DICOM-Speicher und das Ziel-Dataset, der FHIR-Speicher oder der DICOM-Speicher müssen sich am selben Google Cloud-Speicherort befinden. Die De-Identifikation von Daten für mehrere Google Cloud-Speicherorte wird nicht unterstützt.

Speicherort für De-Identifikation

Wenn die Cloud Healthcare API Daten de-identifiziert, können die Daten an einem anderen Standort verarbeitet als dem, an dem sich Quelle und Ziel des FHIR- oder DICOM-Speichers befindet. Nach Abschluss der De-Identifikation werden die Daten am selben Google Cloud-Speicherort wie der FHIR-oder DICOM-Quellspeicher abgelegt.

De-Identifikation von Daten in der Google Cloud Console

Sie können Daten für ein Dataset, einen FHIR-Speicher oder einen DICOM-Speicher in der Google Cloud Console de-identifizieren. Weitere Informationen finden Sie unter Daten in der Google Cloud Console de-identifizieren (DICOM) und Daten in der Google Cloud Console (FHIR) de-identifizieren.

De-Identifikation von DICOM-Daten

Eine DICOM-Instanz enthält eine Gruppe von Metadatenelementen mit Schlüssel/Wert-Paaren (auch als Tags bezeichnet) und ein oder mehrere Bilder. Der Vorgang deidentify kann bestimmte Tags entfernen, die vertrauliche Daten enthalten. Außerdem kann die optische Zeichenerkennung (OCR) verwendet werden, um eingebrannten Text auf Bildern in DICOM-Instanzen zu entfernen.

Beispiele zum De-Identifizieren von DICOM-Daten finden Sie unter DICOM-Daten de-identifizieren.

De-Identifikation von FHIR-Daten

Jede FHIR-Ressource ist ein JSON-ähnliches Objekt, das Elemente aus Schlüssel/Wert-Paaren enthält. Einige Elemente sind standardisiert, andere hingegen liegen als Freitext vor. Mit dem Vorgang deidentify können Sie eines der folgenden Ergebnisse erzielen:

  • Bestimmte Werte in der Ressource entfernen

  • Abschnitte mit beliebigem Text verarbeiten, sodass nur die sensiblen Teile entfernt werden und die restlichen Daten unverändert bleiben

Beispiele zum De-Identifizieren von FHIR-Daten finden Sie unter FHIR-Daten de-identifizieren.