Die Re-Identifikations-Risikoanalyse, oder einfach eine Risikoanalyse, ist der Prozess der Analyse sensibler Daten, um Attribute zu finden, die das Risiko der Identifizierung von Personen erhöhen können. Sie können Risikoanalyseverfahren vor der De-Identifikation verwenden, um eine effektive De-Identifikationsstrategie zu ermitteln, oder nach der De-Identifikation, um sie auf Änderungen oder Ausreißer zu prüfen.
Der Schutz sensibler Daten kann vier Re-Identifikations-Risikomesswerte berechnen: k-Anonymität, l-Diversität, k-Map und δ-Präsenz. Wenn Sie mit der Risikoanalyse oder einem dieser Messwerte nicht vertraut sind, lesen Sie das Thema Konzept der Risikoanalyse, bevor Sie fortfahren.
Dieser Abschnitt bietet einen Überblick über die Verwendung des Schutzes sensibler Daten für die Risikoanalyse von strukturierten Daten mithilfe dieser Messwerte und über anderer zugehöriger Themen.
Risiko der Re-Identifikation berechnen
Mit dem Schutz sensibler Daten können Sie Ihre in BigQuery-Tabellen gespeicherten strukturierten Daten analysieren und folgende Re-Identifikations-Risikomesswerte berechnen. Klicken Sie auf den Link für den Messwert, den Sie berechnen möchten, um weitere Informationen zu erhalten.
Messwert | Beschreibung |
---|---|
k-Anonymität | Diese Attribut eines Datasets gibt Auskunft über die Re-Identifizierbarkeit der darin enthaltenen Datensätze. Ein Dataset ist k-anonym, wenn Quasi-Identifikatoren für jede im Dataset gespeicherte Person mit jenen von mindestens k – 1 weiteren in demselben Dataset gespeicherten Personen identisch sind. |
l-Diversität | Erweiterung der k-Anonymität, die zusätzlich die Vielfalt sensibler Werte für jede Spalte misst, in der sie auftreten. Ein Dataset hat l-Diversität, wenn in allen Zeilengruppen mit identischen Quasi-Identifikatoren mindestens l verschiedene Werte für jedes Sensibilitätsattribut vorhanden sind. |
k-map | Berechnet das Risiko der Re-Identifizierbarkeit durch Vergleich eines bestimmten de-identifizierten Datasets mit einem größeren Re-Identifikations- oder sogenannten "Angriffs"-Dataset. |
δ-Präsenz | Dieser Messwert ist die geschätzte Wahrscheinlichkeit, mit der Daten eines bestimmten Nutzers in einer größeren Population im Dataset enthalten sind. Er wird verwendet, wenn das Vorkommen im Dataset selbst bereits eine sensible Information ist. |
Andere Statistiken berechnen
Mit dem Schutz sensibler Daten und derselben DlpJob
-Ressource wie für die Risikoanalyse APIs können Sie auch numerische und kategorische Statistiken für Daten berechnen, die in BigQuery-Tabellen gespeichert sind.
Messwert | Beschreibung |
---|---|
Numerische Statistik | Bestimmt die Mindest-, Höchst- und Quantilwerte für eine einzelne BigQuery-Spalte. |
Kategorische numerische Statistiken | Berechnet kategorische numerische Statistiken für die einzelnen Histogramm-Buckets innerhalb einer BigQuery-Spalte. |
Weitere Informationen finden Sie unter Numerische und kategorische Statistiken berechnen.
Risiko der Re-Identifikation visualisieren
Mit dem Schutz sensibler Daten (k-Anonymität oder l-Diversität) oder anderenGoogle Cloud -Produkten können Sie die Risikomesswerte visualisieren, die vom Schutz sensibler Daten direkt in der Google Cloud -Konsole berechnet werden.
Produkt | Beschreibung |
---|---|
Looker Studio | Nachdem Sie k-Anonymität-Werte für ein Dataset mit dem Schutz sensibler Daten berechnet haben, können Sie die Ergebnisse in Looker Studio visualisieren. Auf diese Weise können Sie auch das Risiko der Re-Identifizierung besser verstehen und die Kompromisse in Bezug auf den Nutzen abwägen, die Sie möglicherweise eingehen, wenn Sie Daten entfernen oder de-identifizieren. |