Re-Identifikations-Risikoanalyse

Die Re-Identifikations-Risikoanalyse (oder einfach eine Risikoanalyse) ist der Prozess der Analyse sensibler Daten, um Attribute zu finden, die das Risiko der Identifizierung von Personen erhöhen können oder dass vertrauliche Informationen über Einzelpersonen enthüllt werden. Sie können Risikoanalyseverfahren vor der De-Identifikation verwenden, um eine effektive De-Identifikationsstrategie zu ermitteln, oder nach der De-Identifikation, um sie auf Änderungen oder Ausreißer zu prüfen.

Der Prozess des Entfernens von identifizierenden Informationen aus Daten wird auch De-Identifikation genannt. Sensitive Data Protection kann sensible Daten erkennen und de-identifizieren, je nachdem, wie Sie sie für die Anforderungen Ihrer Organisation konfiguriert haben.

Umgekehrt ist Re-Identifikation der Prozess, mit dem de-identifizierte Daten mit anderen verfügbaren Daten auf Übereinstimmungen geprüft werden, um die Person zu bestimmen, die diese Daten betreffen. Die Re-Identifikation wird am häufigsten im Zusammenhang mit sensiblen personenbezogenen Informationen wie medizinischen oder Finanzdaten erwähnt.

Weitere Informationen zur Verwendung des Schutzes sensibler Daten zur Messung verschiedener Risikoarten finden Sie unter Messung des Risikos von Re-Identifikation und Offenlegung.

Begriffe und Techniken der Risikoanalyse

Wenn Sie sensible Daten nicht korrekt oder nicht ausreichend de-identifizieren, riskieren Sie, dass Angreifer die Daten neu identifizieren oder Kenntnis von vertraulichen Informationen über Einzelpersonen erlangen, was schwerwiegende Datenschutzverletzungen zur Folge haben kann. Mithilfe des Schutzes sensibler Daten können Sie das Risiko anhand verschiedener Messwerte berechnen.

Vor der Beschreibung der einzelnen Messwerte hier eine kurze Erklärung der verwendeten Begriffe:

  • Identifikator: Identifikatoren können verwendet werden, um eine Person eindeutig zu identifizieren. Der vollständige Name oder die Sozialversicherungsnummer einer Person sind zum Beispiel solche Identifikatoren.
  • Quasi-Identifikatoren: Quasi-Identifikatoren identifizieren Personen nicht eindeutig, aber wenn sie kombiniert und über Querverweise mit anderen Datensätzen verglichen werden, erhöhen sie erheblich die Wahrscheinlichkeit, dass ein Angreifer eine Person identifizieren kann. Zum Beispiel werden Postleitzahlen und Alter als Quasi-Identifikatoren betrachtet.
  • Sensible Daten: Sensible Daten sind Informationen, die vor unbefugter Offenlegung geschützt werden müssen. Attribute wie Gesundheitszustand, Gehalt, Straftaten und der geografische Standort einer Person werden typischerweise als sensible Daten angesehen. Beachten Sie, dass es Überschneidungen zwischen Identifikatoren und sensiblen Daten geben kann.
  • Äquivalenzklassen: Eine Äquivalenzklasse ist eine Gruppe von Zeilen mit identischen Quasi-Identifikatoren.

Es gibt vier Techniken, mit denen der Schutz sensibler Daten das Risikopotenzial eines Datensatzes quantifizieren kann:

  • k-Anonymität: Dieses Attribut eines Datasets gibt Auskunft über die Re-Identifizierbarkeit der darin enthaltenen Datensätze. Ein Dataset ist k-anonym, wenn Quasi-Identifikatoren für jede im Dataset gespeicherte Person mit jenen von mindestens k – 1 weiteren in demselben Dataset gespeicherten Personen identisch sind.
  • l-Diversität: Erweiterung der k-Anonymität, die zusätzlich die Vielfalt vertraulicher Werte für jede Spalte misst, in der sie auftreten. Ein Dataset hat l-Diversität, wenn in allen Zeilengruppen mit identischen Quasi-Identifikatoren mindestens l verschiedene Werte für jedes vertrauliche Attribut vorhanden sind.
  • k-Map: Berechnet das Risiko der Re-Identifizierbarkeit durch Vergleich eines bestimmten de-identifizierten Datasets mit einem größeren Re-Identifikations- oder sogenannten "Angriffs"-Dataset. Der Schutz sensibler Daten kennt das Angriffs-Dataset nicht, erstellt aber ein statistisches Modell. Dazu werden öffentlich verfügbare Daten wie die US-Volkszählung oder ein benutzerdefiniertes statistisches Modell (angegeben als eine oder mehrere BigQuery-Tabellen) verwendet oder die Daten werden aus der Werteverteilung in dem Eingabedataset abgeleitet. Alle Datasets – das Muster-Dataset und das Dataset der Re-Identifikation – haben eine oder mehrere Spalten mit Quasi-Identifikatoren gemeinsam.
  • Delta-Präsenz (δ-Präsenz): Dieser Messwert ist die geschätzte Wahrscheinlichkeit, mit der Daten eines bestimmten Nutzers in einer größeren Population im Dataset enthalten sind. Er wird verwendet, wenn das Vorkommen im Dataset selbst bereits eine sensible Information ist. Ähnlich wie bei k-Map kennt der Schutz sensibler Daten das Angriffs-Dataset nicht, modelliert es jedoch statistisch anhand öffentlich verfügbarer Daten, der Verteilung der Nutzerangaben oder der Ableitung aus dem Eingabe-Dataset.

k-Anonymität

Bei Datenerhebungen für Forschungszwecke kann eine De-Identifikation für den Schutz personenbezogener Daten von grundlegender Bedeutung sein. Gleichzeitig kann eine De-Identifikation aber auch dazu führen, dass ein Dataset seinen praktischen Nutzen verliert. Die k-Anonymität wurde mit dem Ziel definiert, um die Wiedererkennbarkeit eines Datasets zu quantifizieren wie auch ein ausgewogenes Verhältnis zwischen dem Nutzen anonymisierter Personendaten und dem Schutz der Privatsphäre von Personen, deren Daten verwendet werden, zu schaffen. Mit der k-Anonymität kann die Wiedererkennbarkeit von Datensätzen im Dataset überprüft werden.

Betrachten Sie als Beispiel einen Satz von Patientendaten:

Patienten-ID Vollständiger Name Postleitzahl Alter Bedingung
746572 John J. Jacobsen 98122 29 Herzkrankheit
652978 Debra D. Dreb 98115 29 Diabetes, Typ II
075321 Abraham A. Abernathy 98122 54 Leberkrebs
339012 Karen K. Krakau 98115 88 Herzkrankheit
995212 William W. Wertheimer 98115 54 Asthma

Dieser Datensatz enthält alle drei der zuvor genannten Datentypen: Identifikatoren, Quasi-Identifikatoren und sensible Daten.

Wenn sensible Daten wie der Gesundheitszustand nicht maskiert oder redigiert werden, könnte ein Angreifer möglicherweise die enthaltenen Quasi-Identifikatoren mit einem anderen Datensatz, der ähnliche Quasi-Identifikatoren enthält, über Querverweise in Beziehung setzen und so die Personen, zu denen diese sensiblen Daten gehören, re-identifizieren.

Ein Dataset ist k-anonym, wenn jede Wertekombination aus demografischen Spalten im Dataset für mindestens k verschiedene Datensätze angezeigt wird. Wie oben erwähnt, wird eine Gruppe von Zeilen mit identischen Quasi-Identifikatoren als "Äquivalenzklasse" bezeichnet. Wenn Sie beispielsweise die Quasi-Identifikatoren so weit de-identifiziert haben, dass mindestens vier Zeilen identische Quasi-Identifikatoren enthalten, hat das Dataset den k-Anonymitätswert 4.

Entitäts-IDs und das Berechnen der k-Anonymität

Eine wichtige Option, die Sensitive Data Protection bei der Berechnung der k-Anonymität berücksichtigt, ist die optionale Entitäts-ID. In dem häufig auftretenden Szenario, in dem mehrere Zeilen des Datasets ein und denselben Nutzer betreffen, können Sie mithilfe der Entitäts-ID die k-Anonymität genauer bestimmen. Denn wenn jede Zeile nutzerunabhängig separat gezählt wird, führt dies zu einer künstlichen Erhöhung der Gesamtzahl der Nutzer, die für die Berechnung des k-Anonymitätswerts berücksichtigt werden. Dadurch werden die berechneten k-Anonymitätswerte ungenau.

Betrachten Sie den folgenden einfachen Datensatz:

Nutzer-ID Postleitzahl
01 42000
02 17000
02 42000
03 17000
03 42000
03 42000
04 42000
04 17000

Ohne Verwendung von Entitäts-IDs, die kennzeichnen, dass verschiedene Zeilen denselben Nutzer betreffen, werden für die Berechnung der k-Anonymität acht Nutzer berücksichtigt, obwohl es tatsächlich nur vier sind. In diesem Dataset haben bei traditionellen Berechnungsmethoden für die k-Anonymität (ohne Entitäts-ID) drei Personen einen k-Anonymitätswert von 3 und fünf Personen einen k-Anonymitätswert von 5, obwohl nur Daten von vier Personen in der Datenbank gespeichert sind.

Wenn Sie eine Entitäts-ID verwenden, berücksichtigt der Schutz sensibler Daten bei der Berechnung der k-Anonymität das Multiset der Postleitzahlen, die den Nutzern zugeordnet sind, als Quasi-Identifikatoren. Im Fall unseres Beispiels gibt es drei "zusammengesetzte" Quasi-Identifikatoren, weil den Nutzern drei verschiedene Kombinationen von Quasi-Identifikatoren (Postleitzahlen) zugeordnet sind: 42000, das Multiset aus 17000 und 42000 sowie das Multiset aus 17000, 42000 und 42000. Diese sind den Nutzern folgendermaßen zugeordnet:

  • [42000] ist einem eindeutigen Nutzer (01) zugeordnet.
  • [17000, 42000] ist zwei eindeutigen Nutzern (02 und 04) zugeordnet.
  • [17000, 42000, 42000] ist einem eindeutigen Nutzer (03) zugeordnet.

Wie Sie sehen, wird bei dieser Methode berücksichtigt, dass Nutzer mehrmals in der Postleitzahlen-Datenbank vorkommen können, und behandelt sie bei der Berechnung der k-Anonymität entsprechend.

Weiterführende Informationen über die k-Anonymität

Weitere Informationen zur k-Anonymität finden Sie in der englischsprachigen Veröffentlichung zum Thema Datenschutz bei der Offenlegung von Informationen: k-Anonymität und ihre Durchsetzung durch Generalisierung und Unterdrückung von Pierangela Samarati und Latanya Sweeney vom Data Privacy Lab der Harvard University.

Informationen zum Berechnen der k-Anonymität mit dem Schutz sensibler Daten mit oder ohne Entitäts-IDs finden Sie unter k-Anonymität für ein Dataset berechnen.

l-Diversität

Die l-Diversität steht in einem engen Zusammenhang mit der k-Anonymität und dient der Ermittlung der Anfälligkeit eines de-identifizierten Datasets für Angriffe wie folgende:

  • Homogenitätsangriffe, bei denen Angreifer auf der Grundlage der Homogenität von Werten innerhalb einer Menge von k Datensätzen sensible Werte für einen Satz k-anonymisierter Daten prognostizieren.
  • Background Knowledge-Angriffe, bei denen Angreifer Verknüpfungen zwischen Quasi-Identifikatoren mit einem bestimmten Sensibilitätsattribut ausnutzen, um die möglichen Werte des Attributs einzugrenzen.

Mit der l-Diversität wird versucht zu messen, wie viel ein Angreifer in Bezug auf k-Anonymität und Äquivalenzklassen (Gruppen von Zeilen mit identischen Quasi-Identifikatoren) über Personen herausfinden kann. Ein Dataset hat l-Diversität, wenn in jeder Äquivalenzklasse mindestens l eindeutige Werte für jedes sensible Attribut vorhanden sind. Wie viele sensible Attribute gibt es für jede Äquivalenzklasse im Datensatz? Eine l-Diversität von 1 bedeutet zum Beispiel, dass alle das gleiche sensible Attribut haben, eine l-Diversität von 2, dass alle jeweils eins von zwei sensiblen Attributen haben usw.

Weiterführende Informationen zur l-Diversität

Weitere Informationen über die l-Diversität finden Sie im englischsprachigen Dokument zum Thema l-Diversität: Datenschutz jenseits der k-Anonymität von Ashwin Machanavajjhala, Johannes Gerke und Daniel Kifer vom Department of Computer Science der Cornell University.

Informationen zum Berechnen der l-Diversität mit dem Schutz sensibler Daten finden Sie unter l-Diversität für ein Dataset berechnen.

k-Map

Der Messwert k-Map ist der k-Anonymität sehr ähnlich, mit der Ausnahme, dass hier davon ausgegangen wird, dass der Angreifer wahrscheinlich nicht weiß, wessen Daten im Dataset gespeichert sind. Verwenden Sie k-Map, wenn Ihr Dataset relativ klein ist oder die Generalisierung der Attribute zu aufwendig wäre.

Ebenso wie bei der k-Anonymität müssen Sie für k-Map bestimmen, welche Spalten der Datenbank Quasi-Identifikatoren enthalten. Damit geben Sie an, welche Daten ein Angreifer höchstwahrscheinlich verwenden würde, um Personen zu re-identifizieren. Für die Berechnung eines k-Map-Werts ist außerdem ein Reidentifikations-Dataset erforderlich – eine größere Tabelle, mit deren Daten die Zeilen des ursprünglichen Datasets verglichen werden können.

Betrachten Sie das folgende kleine Beispiel-Dataset. Diese Beispieldaten stammen aus einer hypothetischen größeren Datenbank, erstellt aus Umfrageergebnissen, die sensible Informationen enthalten.

Postleitzahl Alter
85535 79
60629 42

Einzeln betrachtet ist für beide Personen die gleiche Menge an Informationen enthalten. Die Betrachtung der k-Anonymität in einem größeren Dataset könnte zu der Behauptung führen, dass die in der zweiten Zeile genannte Person leicht identifizierbar ist. Wenn Sie jedoch die Daten sichern und untersuchen, werden Sie feststellen, dass dies nicht der Fall ist. Betrachten Sie insbesondere die Postleitzahl 85535 der Vereinigten Staaten, unter der derzeit etwa nur 20 Personen leben. Vermutlich lebt nur eine Person von genau 79 Jahren im Gebiet der Postleitzahl 85535. Vergleichen Sie dies mit der Postleitzahl 60629, die Teil des Großraums Chicago ist und unter der mehr als 100.000 Menschen leben. Im Gebiet dieser Postleitzahl gibt es ungefähr 1.000 Personen im Alter von genau 42 Jahren.

Das heißt, die Person aus der ersten Zeile ist wesentlich leichter re-identifizierbar als die in der zweiten Zeile genannte. Im Hinblick auf die k-Anonymität können beide Zeilen in einem größeren Dataset jedoch eindeutig sein.

Ebenso wie bei der k-Anonymität müssen Sie für k-Map bestimmen, welche Spalten der Datenbank Quasi-Identifikatoren enthalten. Die Risikoanalyse APIs von Sensitive Data Protection simulieren ein Re-Identifikations-Dataset, um die Schritte nachzuvollziehen, die ein Angreifer möglicherweise durchlaufen könnte, um das ursprüngliche Dataset mit einem anderen zu vergleichen und somit die Daten zu re-identifizieren. Da es im vorstehenden Beispiel um Standorte in den USA (Postleitzahlen) und persönliche Daten (Alter) ging und wir annehmen, dass der Angreifer nicht weiß, wer an der Umfrage teilgenommen hat, könnte das Re-Identifikations-Dataset sämtliche in den USA lebenden Personen umfassen.

Anhand der Quasi-Identifikatoren und des Re-Identifikations-Datasets können Sie nun den k-Map-Wert berechnen. Der k-Map-Wert Ihrer Daten entspricht k, wenn alle Wertekombinationen der Quasi-Identifikatoren mindestens k-mal im Re-Identifikations-Dataset vorkommen.

Angesichts dieser Definition und der Tatsache, dass die erste Zeile in unserer Datenbank wahrscheinlich nur einer Person in den USA entspricht, erfüllt das Beispiel-Dataset nicht die Anforderung eines k-Map-Werts von 2 oder mehr. Um einen größeren k-Map-Wert zu erhalten, könnten wir die Altersangaben entfernen:

Postleitzahl Alter
85535 **
60629 **

Wie bereits erwähnt, leben im Gebiet der Postleitzahl 85535 etwa 20 Personen und unter der Postleitzahl 60629 mehr als 100.000. Daher können wir schätzen, dass dieses neue generalisierte Dataset einen k-Map-Wert von etwa 20 hat.

Weiterführende Informationen zu k-Map

Weitere Informationen zum Messwert k-Map und dessen Beziehung zur k-Anonymität finden Sie im englischsprachigen Artikel zum Thema Datenschutz mit k-Anonymität von Khaled El Emam und Fida Kamal Dankar, veröffentlicht im Journal of the American Medical Informatics Association.

Informationen zum Berechnen von k-Map-Schätzungen mit dem Sensitive Data Protection-Modul finden Sie unter k-Map für ein Dataset berechnen.

δ-Präsenz

Mit der Delta-Präsenz (δ-Präsenz) kann geschätzt werden, welches Risiko im Zusammenhang mit einem Angreifer besteht, der ermitteln möchte, ob sein Zielobjekt im Dataset gespeichert ist. Dies unterscheidet sich leicht vom Risiko der erneuten Identifikation, da das Ziel hier nicht darin besteht, herauszufinden, welcher Datensatz zu welcher Person gehört, sondern nur, ob Daten einer bestimmten Person im Dataset gespeichert sind. Die Verwendung dieses Messwerts ist besonders dann sinnvoll, wenn alle Personen im Datensatz ein bestimmtes sensibles Attribut gemeinsam haben, zum Beispiel die gleiche medizinische Diagnose.

Wie bei den anderen Risikomesswerten müssen Sie auch bei der δ-Präsenz bestimmen, welche Spalten Ihrer Datenbank Quasi-Identifikatoren enthalten. Damit geben Sie an, welche Daten ein Angreifer höchstwahrscheinlich verwenden würde, um herauszufinden, von welchen Personen Daten gespeichert sind. Ebenso wie bei k-Map benötigen Sie für die Berechnung der δ-Präsenz ein Angriffs-Dataset – eine größere Tabelle, mit deren Daten die Zeilen des ursprünglichen Datasets verglichen werden können.

Betrachten Sie das folgende kleine Beispiel-Dataset. Diese Beispieldaten stammen aus einer hypothetischen größeren Datenbank mit Daten von Personen, die an einer bestimmten genetischen Erkrankung leiden.

Postleitzahl Alter
85942 72
85942 72
62083 53

Im Gebiet der Postleitzahl 85942 in den USA leben nur 2 Personen im Alter von 72 Jahren und im Gebiet der Postleitzahl 62083 etwa 5 Personen im Alter von 53 Jahren. Die ersten beiden Datensätze sind nicht genau re-identifizierbar, da beide die gleichen Quasi-Identifikatoren haben. Da es in der Bevölkerung jedoch nur zwei Personen gibt, auf die diese Quasi-Identifikatoren zutreffen, kann ein Angreifer daraus schließen, dass beide an der genetischen Krankheit leiden. Mit der δ-Präsenz können Sie dieses spezifische Risiko quantifizieren, indem Sie den Anteil der Personen mit bestimmten Quasi-Identifikatoren im Dataset ermitteln.

Wie bei den anderen Risikomesswerten müssen Sie auch bei der δ-Präsenz bestimmen, welche Spalten Ihrer Datenbank Quasi-Identifikatoren enthalten. Wie bei der k-Map-Schätzung simulieren die Risikoanalyse APIs von Sensitive Data Protection ein Populations-Dataset, um näherungsweise das Dataset einzugrenzen, das ein Angreifer verwenden könnte, um herauszufinden, von welchen Personen Informationen im Dataset gespeichert sind. Da es im vorstehenden Beispiel um Standorte in den USA (Postleitzahlen) und persönliche Daten (Alter) ging und wir annehmen, dass der Angreifer nicht weiß, wer an der genetischen Erkrankung leidet, könnte das Re-Identifikations-Dataset sämtliche in den USA lebenden Personen umfassen.

Anhand der Quasi-Identifikatoren und des Re-Identifikations-Datasets können Sie nun den Wert der δ-Präsenz berechnen. Der δ-Präsenzwert Ihrer Daten entspricht δ, wenn alle Wertekombinationen der Quasi-Identifikatoren mindestens δ * k-mal im Re-Identifikations-Dataset vorkommen. Dabei ist k die Gesamtzahl der Personen im Populations-Dataset, auf die diese Quasi-Identifikatoren zutreffen. Im Gegensatz zu k in der k-Anonymität und in k-Map ist δ in der δ-Präsenz eine reelle Zahl zwischen 0 und 1.

Nach dieser Definition und aufgrund der Tatsache, dass beide Personen der allgemeinen Bevölkerung, die 72 Jahre alt sind und im Gebiet der Postleitzahl 85942 wohnen, ebenfalls in unserer Datenbank gespeichert sind, erfüllt dieses Dataset nicht die δ-Präsenz für δ-Werte, die kleiner als 1 sein müssen. Um einen niedrigeren δ-Präsenzwert zu erhalten, könnten wir den Alterswert der ersten zwei Zeilen entfernen:

Postleitzahl Alter
85942 **
85942 **
62083 53

Da 80 Personen im Gebiet der Postleitzahl 85942 leben, beträgt der δ-Wert für die ersten beiden Datensätze ungefähr 2/80 = 2,5 %; und der δ-Wert für den dritten Datensatz etwa 1/5 = 20 %. Daher können wir schätzen, dass dieses neue, generalisierte Dataset einen δ-Präsenzwert von etwa 20 % hat.

Weiterführende Informationen zur δ-Präsenz

Weitere Informationen zur δ-Präsenzschätzung auf der Grundlage von statistischen Daten finden Sie im Technical Report δ-Presence Without Complete World Knowledge von Mehmet Ercan Nergiz und Chris Clifton des Department of Computer Science der Purdue University.

Informationen zum Berechnen von δ-Präsenzschätzungen mit dem Schutz sensibler Daten finden Sie unter δ-Präsenz für ein Dataset berechnen.