Messung des Risikos von Re-Identifikation und Offenlegung

Die Re-Identifikations-Risikoanalyse, oder einfach eine Risikoanalyse, ist der Prozess der Analyse sensibler Daten, um Attribute zu finden, die das Risiko der Identifizierung von Personen erhöhen können. Sie können Risikoanalyseverfahren vor der De-Identifikation verwenden, um eine effektive De-Identifikationsstrategie zu ermitteln, oder nach der De-Identifikation, um sie auf Änderungen oder Ausreißer zu prüfen.

Cloud Data Loss Prevention (DLP) kann vier Re-Identifikations-Risikomesswerte berechnen: k-Anonymität, l-Diversität, k-Map und δ-Präsenz. Wenn Sie mit der Risikoanalyse oder einem dieser Messwerte nicht vertraut sind, lesen Sie das Thema Konzept der Risikoanalyse, bevor Sie fortfahren.

Dieser Abschnitt bietet einen Überblick über die Verwendung von Cloud DLP für die Risikoanalyse von strukturierten Daten mithilfe dieser Messwerte und über anderer zugehöriger Themen.

Risiko der Re-Identifikation berechnen

Cloud DLP kann Ihre in BigQuery-Tabellen gespeicherten strukturierten Daten analysieren und die folgenden Risikomesswerte für die Re-Identifikation berechnen. Klicken Sie auf den Link für den Messwert, den Sie berechnen möchten, um mehr zu erfahren.

Messwert Beschreibung
k-Anonymität Diese Attribut eines Datasets gibt Auskunft über die Re-Identifizierbarkeit der darin enthaltenen Datensätze. Ein Dataset ist k-anonym, wenn Quasi-Identifikatoren für jede im Dataset gespeicherte Person mit jenen von mindestens k – 1 weiteren in demselben Dataset gespeicherten Personen identisch sind.
l-Diversität Erweiterung der k-Anonymität, die zusätzlich die Vielfalt sensibler Werte für jede Spalte misst, in der sie auftreten. Ein Dataset hat l-Diversität, wenn in allen Zeilengruppen mit identischen Quasi-Identifikatoren mindestens l verschiedene Werte für jedes Sensibilitätsattribut vorhanden sind.
k-map Berechnet das Risiko der Re-Identifizierbarkeit durch Vergleich eines bestimmten de-identifizierten Datasets mit einem größeren Re-Identifikations- oder sogenannten "Angriffs"-Dataset.
δ-Präsenz Dieser Messwert ist die geschätzte Wahrscheinlichkeit, mit der Daten eines bestimmten Nutzers in einer größeren Population im Dataset enthalten sind. Er wird verwendet, wenn das Vorkommen im Dataset selbst bereits eine sensible Information ist.

Andere Statistiken berechnen

Mit Cloud DLP und derselben DlpJob-Ressource wie für die Risikoanalyse APIs können Sie auch numerische und kategorische Statistiken für Daten berechnen, die in BigQuery-Tabellen gespeichert sind.

Messwert Beschreibung
Numerische Statistiken Bestimmt die Mindest-, Höchst- und Quantilwerte für eine einzelne BigQuery-Spalte.
Kategorische numerische Statistiken Berechnet kategorische numerische Statistiken für die einzelnen Histogramm-Buckets innerhalb einer BigQuery-Spalte.

Weitere Informationen finden Sie unter Numerische und kategorische Statistiken berechnen.

Risiko der Re-Identifikation visualisieren

Mit Cloud DLP (k-Anonymität oder l–Diversität) oder andere Google Cloud-Produkte können Sie die Risikomesswerte visualisieren, die von Cloud DLP direkt in der Cloud Console berechnet werden.

Produkt Beschreibung
Data Studio Nachdem Sie k-Anonymität-Werte für ein Dataset mit Cloud DLP berechnet haben, können Sie die Ergebnisse in Google Data Studio visualisieren. Auf diese Weise können Sie auch Re-Identifikations-Risiken besser verstehen und die Kompromisse in Bezug auf den Nutzen abwägen, die Sie möglicherweise eingehen, wenn Sie Daten entfernen oder de-identifizieren.