Die Re-Identifikations-Risikoanalyse, oder einfach eine Risikoanalyse, ist der Prozess der Analyse sensibler Daten, um Attribute zu finden, die das Risiko der Identifizierung von Personen erhöhen können. Sie können Risikoanalyseverfahren vor der De-Identifikation verwenden, um eine effektive De-Identifikationsstrategie zu ermitteln, oder nach der De-Identifikation, um sie auf Änderungen oder Ausreißer zu prüfen.
Mit dem Schutz sensibler Daten können vier Re-Identifikationsrisikomesswerte berechnet werden: k-Anonymität, l-Diversität, k-Map und explore-Präsenz. Wenn Sie mit der Risikoanalyse oder einem dieser Messwerte nicht vertraut sind, lesen Sie das Thema Konzept der Risikoanalyse, bevor Sie fortfahren.
Dieser Abschnitt bietet einen Überblick über die Verwendung des Schutzes sensibler Daten für die Risikoanalyse von strukturierten Daten anhand dieser Messwerte und anderer verwandter Themen.
Risiko der Re-Identifikation berechnen
Der Schutz sensibler Daten kann Ihre in BigQuery-Tabellen gespeicherten strukturierten Daten analysieren und die folgenden Re-Identifikationsrisikomesswerte berechnen. Klicken Sie auf den Link für den Messwert, den Sie berechnen möchten, um weitere Informationen zu erhalten.
Messwert | Beschreibung |
---|---|
k-Anonymität | Diese Attribut eines Datasets gibt Auskunft über die Re-Identifizierbarkeit der darin enthaltenen Datensätze. Ein Dataset ist k-anonym, wenn Quasi-Identifikatoren für jede im Dataset gespeicherte Person mit jenen von mindestens k – 1 weiteren in demselben Dataset gespeicherten Personen identisch sind. |
l-Diversität | Erweiterung der k-Anonymität, die zusätzlich die Vielfalt sensibler Werte für jede Spalte misst, in der sie auftreten. Ein Dataset hat l-Diversität, wenn in allen Zeilengruppen mit identischen Quasi-Identifikatoren mindestens l verschiedene Werte für jedes Sensibilitätsattribut vorhanden sind. |
k-map | Berechnet das Risiko der Re-Identifizierbarkeit durch Vergleich eines bestimmten de-identifizierten Datasets mit einem größeren Re-Identifikations- oder sogenannten "Angriffs"-Dataset. |
δ-Präsenz | Dieser Messwert ist die geschätzte Wahrscheinlichkeit, mit der Daten eines bestimmten Nutzers in einer größeren Population im Dataset enthalten sind. Er wird verwendet, wenn das Vorkommen im Dataset selbst bereits eine sensible Information ist. |
Andere Statistiken berechnen
Der Schutz sensibler Daten kann auch numerische und kategorische Statistiken für Daten berechnen, die in BigQuery-Tabellen gespeichert sind. Dabei wird dieselbe DlpJob
-Ressource verwendet wie die Risikoanalyse-APIs.
Messwert | Beschreibung |
---|---|
Numerische Statistik | Bestimmt die Mindest-, Höchst- und Quantilwerte für eine einzelne BigQuery-Spalte. |
Kategorische numerische Statistiken | Berechnet kategorische numerische Statistiken für die einzelnen Histogramm-Buckets innerhalb einer BigQuery-Spalte. |
Weitere Informationen finden Sie unter Numerische und kategorische Statistiken berechnen.
Risiko der Re-Identifikation visualisieren
Sie können die Risikomesswerte, die der Schutz sensibler Daten berechnet, direkt in der Google Cloud Console mit dem Schutz sensibler Daten (k-Anonymität oder l-Diversität) oder mithilfe anderer Google Cloud-Produkte visualisieren.
Produkt | Beschreibung |
---|---|
Looker Studio | Nachdem Sie die k-Anonymität für ein Dataset mit dem Schutz sensibler Daten berechnet haben, können Sie die Ergebnisse in Looker Studio visualisieren. Auf diese Weise können Sie auch Re-Identifikations-Risiken besser verstehen und die Kompromisse in Bezug auf den Nutzen abwägen, die Sie möglicherweise eingehen, wenn Sie Daten entfernen oder de-identifizieren. |