De-Identifikation

Cloud Data Loss Prevention (DLP) verwendet Informationstypen bzw. infoTypes, um zu definieren, wonach gescannt wird. Ein infoType ist ein Typ sensibler Daten wie Name, E-Mail-Adresse, Telefonnummer, Sozialversicherungsnummer, Kreditkartennummer usw.

Jeder in Cloud DLP definierte infoType besitzt einen entsprechenden Detektor. Cloud DLP verwendet in der Konfiguration für seine Scans infoType-Detektoren, um zu bestimmen, wonach gesucht werden soll und wie die Ergebnisse transformiert werden. Die infoType-Namen werden auch für die Anzeige von Scanergebnissen oder in entsprechenden Berichten verwendet.

In diesem Thema werden die infoTypes und infoType-Detektoren detailliert beschrieben. Außerdem erfahren Sie, wie Sie infoType-Detektoren nutzen können, wenn Sie mit Cloud DLP Inhalte auf sensible Daten untersuchen.

infoType-Detektoren angeben

Wenn Sie Cloud DLP zum Scannen Ihrer Inhalte einrichten, geben Sie die zu verwendenden infoType-Detektoren in der Scankonfiguration an.

Anhand des folgenden JSON-Beispiels wird eine einfache Scananfrage an die Cloud DLP API veranschaulicht. Beachten Sie, dass der Detektor PHONE_NUMBER in inspectConfig angegeben ist. Damit wird Cloud DLP angewiesen, den angegebenen String nach einer Telefonnummer zu scannen.

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

Die vorhergehende Anfrage liefert Folgendes:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

Sie sollten in Ihrer Scankonfiguration immer einen infoType angeben. Wenn Sie in der Scankonfiguration keinen infoType angeben, verwendet Cloud DLP den standardmäßigen infoType-Detektor ALL_BASIC. Je nach Umfang der zu scannenden Inhalte kann das Scannen nach ALL_BASIC zu zeit- oder kostenaufwendig werden.

Weitere Informationen zur Verwendung von infoType-Detektoren zum Scannen von Inhalten finden Sie in den Anleitungen zu den Themen Prüfung, Entfernung und De-Identifikation.

Arten von infoType-Detektoren

Informationstyp- bzw. infoType-Detektoren sind die Mechanismen, mit deren Hilfe Cloud DLP nach sensiblen Daten sucht.

Cloud DLP enthält mehrere Arten von infoType-Detektoren, die hier zusammengefasst sind:

  • Integrierte infoType-Detektoren sind in Cloud DLP eingebunden. Dazu gehören Detektoren für länder- oder regionsspezifische sensible Datentypen sowie global anwendbare Datentypen.
  • Benutzerdefinierte infoType-Detektoren sind Detektoren, die Sie selbst erstellen. Es gibt drei Arten von benutzerdefinierten infoType-Detektoren:
    • Reguläre benutzerdefinierte Wörterbuchdetektoren sind einfache Wortlisten, in denen Cloud DLP nach Übereinstimmungen sucht. Verwenden Sie reguläre benutzerdefinierte Wörterbuchdetektoren, wenn Sie eine Liste von einigen Zehntausend Wörtern oder Wortgruppen haben. Reguläre benutzerdefinierte Wörterbuchdetektoren werden bevorzugt verwendet, wenn davon auszugehen ist, dass sich die Wortliste nicht wesentlich ändern wird.
    • Gespeicherte benutzerdefinierte Wörterbuchdetektoren werden von Cloud DLP unter Verwendung umfangreicher Listen von Wörtern oder Wortgruppen generiert, die entweder in Cloud Storage oder BigQuery gespeichert sind. Verwenden Sie gespeicherte benutzerdefinierte Wörterbuchdetektoren, wenn Sie eine umfangreiche Liste von Wörtern oder Wortgruppen haben (bis zu mehreren zehn Millionen).
    • Detektoren regulärer Ausdrücke (Regex-Detektoren) ermöglichen es Cloud DLP, Übereinstimmungen anhand eines regulären Ausdrucksmusters zu erkennen.

Außerdem gilt in Cloud DLP das Konzept der Inspektionsregeln, mit denen Sie die Scanergebnisse auf folgende Weise verfeinern können:

  • Ausschlussregeln können Sie einem integrierten oder benutzerdefinierten infoType-Detektor hinzufügen, um die Anzahl der Ergebnisse einzugrenzen.
  • Hotword-Regeln können Sie einem integrierten oder benutzerdefinierten infoType-Detektor hinzufügen, um die Anzahl der Ergebnisse zu erhöhen oder den Wahrscheinlichkeitswert der Ausgabe zu ändern.

Integrierte infoType-Detektoren

Integrierte infoType-Detektoren sind in Cloud DLP bereits enthalten und umfassen Detektoren für länder- oder regionsspezifische sensible Daten wie die französische Numéro d'Inscription au Répertoire (NIR) (FRANCE_NIR), die britische Führerscheinnummer (UK_DRIVERS_LICENSE_NUMBER) und die US-amerikanische Sozialversicherungsnummer (US_SOCIAL_SECURITY_NUMBER). Ebenfalls enthalten sind Detektoren für global anwendbare Datentypen wie Namen von Personen (PERSON_NAME), Telefonnummern (PHONE_NUMBER), E-Mail-Adressen (EMAIL_ADDRESS) und Kreditkartennummern (CREDIT_CARD_NUMBER). Zur Erkennung von Inhalten, die den infoTypes entsprechen, nutzt Cloud DLP verschiedene Techniken wie Mustererkennung, Prüfsummen, maschinelles Lernen, Kontextanalyse und andere.

Die Liste der integrierten infoType-Detektoren wird kontinuierlich aktualisiert. Eine vollständige Liste der derzeit unterstützten integrierten infoType-Detektoren finden Sie in der InfoType-Detektorreferenz.

Sie können auch die vollständige Liste aller integrierten infoType-Detektoren ansehen. Dazu müssen Sie die Methode infoTypes.list von Cloud DLP aufrufen.

Integrierte infoType-Detektoren bieten keine hundertprozentig genaue Erkennungsmethode. Sie können zum Beispiel nicht die Einhaltung von gesetzlichen Vorschriften garantieren. Sie müssen entscheiden, welche Daten sensibel sind und wie sie am besten geschützt werden. Google empfiehlt, dass Sie Ihre Einstellungen testen, um zu prüfen, ob die Konfiguration Ihren Anforderungen entspricht.

Benutzerdefinierte infoType-Detektoren

Es gibt drei Arten von benutzerdefinierten infoType-Detektoren:

Darüber hinaus enthält Cloud DLP folgende Prüfregeln, mit denen Sie die Scanergebnisse mit den folgenden vorhandenen Detektoren verfeinern können:

Reguläre benutzerdefinierte Wörterbuchdetektoren

Verwenden Sie reguläre benutzerdefinierte Wörterbuchdetektoren, wenn Sie Inhalte mit kürzeren Listen von Wörtern oder Wortgruppen (bis zu mehreren Zehntausend) auf Übereinstimmungen prüfen möchten. Ein reguläres benutzerdefiniertes Wörterbuch kann als eigener eindeutiger Detektor verwendet werden.

Benutzerdefinierte Wörterbuchdetektoren sind nützlich, wenn Sie Inhalte auf Übereinstimmungen mit einer Liste von Wörtern oder Ausdrücken prüfen möchten, die mit einem regulären Ausdruck oder einem integrierten Detektor nicht leicht gefunden werden können. Nehmen Sie zum Beispiel an, Sie möchten nach Konferenzräumen suchen, die nicht mit Raumnummern gekennzeichnet, sondern nach Namen von Ländern oder Regionen, Sehenswürdigkeiten oder fiktiven Figuren benannt sind. Hier können Sie einen regulären benutzerdefinierten Wörterbuchdetektor erstellen, der eine Liste dieser Raumnamen enthält. Cloud DLP kann Ihren Inhalt nach allen enthaltenen Raumnamen durchsuchen und eine Übereinstimmung zurückgeben, wenn er im Kontext einen davon findet. Weitere Informationen dazu, wie Cloud DLP nach Wörtern und Wortgruppen aus Wörterbüchern sucht, finden Sie unter Regulären benutzerdefinierten Wörterbuchdetektor erstellen im Abschnitt Details zum Wörterbuchabgleich.

Weitere Informationen zur Funktionsweise regulärer benutzerdefinierter Wörterbuchdetektoren für infoTypes sowie Praxisbeispiele finden Sie unter Regulären benutzerdefinierten Wörterbuchdetektor erstellen.

Gespeicherte benutzerdefinierte Wörterbuchdetektoren

Verwenden Sie gespeicherte benutzerdefinierte Wörterbuchdetektoren, wenn Sie Inhalte auf sehr viele Wörter oder Wortgruppen prüfen möchten oder wenn sich diese Wörter oder Wortgruppen häufig ändern. Gespeicherte benutzerdefinierte Wörterbuchdetektoren können Dutzende Millionen von Wörtern oder Wortgruppen abgleichen.

Da gespeicherte benutzerdefinierte Wörterbuchdetektoren sehr umfangreich sind, werden sie anders erstellt als benutzerdefinierte Detektoren für reguläre Ausdrücke und reguläre benutzerdefinierte Detektoren. Jedes gespeicherte benutzerdefinierte Wörterbuch enthält zwei Komponenten:

  • Eine Liste von Wortgruppen, die Sie erstellen und definieren. Die Liste wird entweder als Textdatei in Cloud Storage oder als Spalte in einer BigQuery-Tabelle gespeichert.
  • Die generierten Wörterbuchdateien, die von Cloud DLP basierend auf Ihrer Wortgruppenliste generiert werden. Die Wörterbuchdateien werden in Cloud Storage gespeichert und bestehen aus einer Kopie der Quellwortgruppen sowie Bloomfiltern, die beim Suchen und Abgleichen helfen. Sie können diese Dateien nicht direkt bearbeiten.

Nachdem Sie eine Wortliste erstellt und dann mit Cloud DLP ein benutzerdefiniertes Wörterbuch generiert haben, starten oder planen Sie einen Scan mithilfe eines gespeicherten benutzerdefinierten Wörterbuchdetektors, ähnlich wie mit anderen infoType-Detektoren.

Weitere Informationen über die Funktionsweise gespeicherter benutzerdefinierter Wörterbuchdetektoren sowie Praxisbeispiele finden Sie unter Gespeicherten benutzerdefinierten Wörterbuchdetektor erstellen.

Reguläre Ausdrücke

Ein benutzerdefinierter, auf einem regulären Ausdruck (Regex) basierender infoType-Detektor ermöglicht es Ihnen, eigene infoType-Detektoren zu erstellen, mit denen Cloud DLP Übereinstimmungen basierend auf einem Regex-Muster erkennen kann. Nehmen Sie beispielsweise an, Sie haben Krankenaktennummern im Format ###-#-#####. Sie könnten ein Regex-Muster wie das Folgende definieren:

[1-9]{3}-[1-9]{1}-[1-9]{5}

Cloud DLP prüft dann auf Übereinstimmungen mit Elementen wie diesem:

123-4-56789

Außerdem können Sie jeder benutzerdefinierten infoType-Übereinstimmung eine Wahrscheinlichkeit zuweisen. Das heißt, wenn Cloud DLP eine Übereinstimmung mit der angegebenen Sequenz findet, weist sie die von Ihnen angegebene Wahrscheinlichkeit zu. Dies ist nützlich, wenn Ihr benutzerdefinierter Regex einer Sequenz entspricht, die allgemein verwendet wird und auch anderen, nicht relevanten Sequenzen entsprechen könnte. In diesem Fall sollte Cloud DLP nicht jede Übereinstimmung als VERY_LIKELY einstufen, da dies die Zuverlässigkeit der Scanergebnisse beeinträchtigen und möglicherweise dazu führen würde, dass die falsche Information de-identifiziert wird.

Weitere Informationen zu regulären infoType-Detektoren für reguläre Ausdrücke sowie Praxisbeispiele finden Sie unter Benutzerdefinierten Regex-Detektor erstellen.

Prüfregeln

Prüfregeln werden verwendet, um die von vorhandenen, regulären oder benutzerdefinierten, infoType-Detektoren zurückgegebenen Ergebnisse zu verfeinern. Prüfregeln können nützlich sein, wenn die Ergebnisse, die Cloud DLP zurückgibt, auf beliebige Weise erweitert werden müssen. Dazu werden Elemente entweder dem vorhandenen infoType-Detektor hinzugefügt oder von diesem ausgeschlossen.

Die zwei Arten von Prüfregeln sind:

  • Ausschlussregeln
  • Hotword-Regeln

Weitere Informationen zu Prüfregeln finden Sie unter infoType-Detektoren zum Verfeinern von Prüfergebnissen ändern.

Ausschlussregeln

Sie können einem integrierten oder benutzerdefinierten infoType-Detektor Ausschlussregeln hinzufügen, um die Anzahl oder die Genauigkeit der Ergebnisse einzugrenzen. Ausschlussregeln tragen dazu bei, die Ausgabe falscher positiver Ergebnisse oder anderer unerwünschter Ergebnisse durch einen infoType-Detektor zu reduzieren.

Wenn Sie beispielsweise in einer Datenbank nach E-Mail-Adressen suchen, können Sie eine Ausschlussregel in Form eines benutzerdefinierten Regex einfügen, mit dem Cloud DLP angewiesen wird, alle Ergebnisse auszuschließen, die auf "@beispiel.com" enden.

Weitere Informationen zu Ausschlussregeln finden Sie unter infoType-Detektoren zum Verfeinern von Prüfergebnissen ändern.

Hotword-Regeln

Sie können einem integrierten oder benutzerdefinierten infoType-Detektor Hotword-Regeln einfügen, um die Anzahl oder die Genauigkeit der Ergebnisse zu erhöhen. Mit Hotword-Regeln werden die Regeln vorhandener infoType-Detektoren gelockert.

Angenommen, Sie möchten in einer medizinischen Datenbank nach Patientennamen suchen. Sie können zwar den in Cloud DLP integrierten infoType-Detektor PERSON_NAME verwenden, dies führt aber dazu, dass Cloud DLP Übereinstimmungen bei allen Personennamen zurückgibt, nicht nur bei Namen von Patienten. Zur Behebung dieses Problems können Sie eine Hotword-Regel in Form eines regulären Ausdrucks als benutzerdefinierten infoType einfügen, die in einem bestimmten Zeichenabstand vom ersten Zeichen möglicher Übereinstimmungen nach dem Wort "Patient" sucht. Ergebnissen, die diesem Muster entsprechen, können Sie dann eine Wahrscheinlichkeit von "sehr wahrscheinlich" zuweisen, da sie Ihren speziellen Kriterien entsprechen.

Weitere Informationen zu Hotword-Regeln finden Sie unter infoType-Detektoren zum Verfeinern von Prüfergebnissen ändern.