Beim Schutz sensibler Daten wird mithilfe von Informationstypen oder infoTypes definiert, wonach gescannt wird. Ein infoType ist ein Typ sensibler Daten wie Name, E-Mail-Adresse, Telefonnummer, Sozialversicherungsnummer, Kreditkartennummer und andere.
Jeder infoType, der im Schutz sensibler Daten definiert ist, hat einen entsprechenden Detektor. Der Schutz sensibler Daten verwendet in der Konfiguration für seine Scans infoType-Detektoren, um zu bestimmen, wonach geprüft werden soll und wie Ergebnisse transformiert werden. Die infoType-Namen werden auch für die Anzeige von Scanergebnissen oder in entsprechenden Berichten verwendet.
In diesem Thema werden die infoTypes und infoType-Detektoren ausführlich beschrieben. Außerdem finden Sie eine Anleitung zur Verwendung von infoType-Detektoren beim Scannen von Inhalten auf sensible Daten mithilfe des Schutzes sensibler Daten.
infoType-Detektoren angeben
Wenn Sie den Schutz sensibler Daten zum Scannen Ihrer Inhalte einrichten, geben Sie die zu verwendenden infoType-Detektoren in der Scankonfiguration an.
Die folgende JSON veranschaulicht beispielsweise eine einfache Scananfrage an die DLP API. Der Detektor PHONE_NUMBER
ist in inspectConfig
angegeben. Damit wird der Schutz sensibler Daten angewiesen, den angegebenen String nach einer Telefonnummer zu scannen.
POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}
{
"item":{
"value":"My phone number is (415) 555-0890"
},
"inspectConfig":{
"includeQuote":true,
"minLikelihood":"POSSIBLE",
"infoTypes":{
"name":"PHONE_NUMBER"
}
}
}
Die vorhergehende Anfrage liefert Folgendes:
{
"result":{
"findings":[
{
"quote":"(415) 555-0890",
"infoType":{
"name":"PHONE_NUMBER"
},
"likelihood":"VERY_LIKELY",
"location":{
"byteRange":{
"start":"19",
"end":"33"
},
"codepointRange":{
"start":"19",
"end":"33"
}
},
"createTime":"2018-10-29T23:46:34.535Z"
}
]
}
}
Geben Sie in Ihrer Scankonfiguration immer infoTypes an. Wenn Sie keine infoTypes angeben, verwendet der Schutz sensibler Daten eine Standardliste von infoTypes. Je nach Menge der zu scannenden Inhalte kann das Scannen nach Standard-infoTypes zu zeitaufwendig oder teuer sein.
Weitere Informationen zur Verwendung von infoType-Detektoren zum Scannen von Inhalten finden Sie in den Anleitungen zu den Themen Prüfung, Entfernung und De-Identifikation.
Arten von infoType-Detektoren
Informationstyp- oder „infoType“-Detektoren sind die Mechanismen, mit denen der Schutz sensibler Daten nach sensiblen Daten sucht.
Der Schutz sensibler Daten umfasst mehrere Arten von infoType-Detektoren, die hier zusammengefasst werden:
- Integrierte infoType-Detektoren sind in den Schutz sensibler Daten eingebunden. Dazu gehören Detektoren für länder- oder regionsspezifische sensible Datentypen sowie global anwendbare Datentypen.
- Benutzerdefinierte infoType-Detektoren sind Detektoren, die Sie selbst erstellen. Es gibt drei Arten von benutzerdefinierten infoType-Detektoren:
- Reguläre benutzerdefinierte Wörterbuchdetektoren sind einfache Wortlisten, in denen beim Schutz sensibler Daten nach Übereinstimmungen gesucht wird. Verwenden Sie reguläre benutzerdefinierte Wörterbuchdetektoren, wenn Sie eine Liste von einigen Zehntausend Wörtern oder Wortgruppen haben. Reguläre benutzerdefinierte Wörterbuchdetektoren werden bevorzugt verwendet, wenn davon auszugehen ist, dass sich die Wortliste nicht wesentlich ändern wird.
- Gespeicherte benutzerdefinierte Wörterbuchdetektoren werden vom Schutz sensibler Daten unter Verwendung umfangreicher Listen von Wörtern oder Wortgruppen generiert, die entweder in Cloud Storage oder BigQuery gespeichert sind. Verwenden Sie gespeicherte benutzerdefinierte Wörterbuchdetektoren, wenn Sie eine umfangreiche Liste von Wörtern oder Wortgruppen haben (bis zu mehreren zehn Millionen).
- Detektoren regulärer Ausdrücke (Regex-Detektoren) ermöglichen dem Schutz sensibler Daten, Übereinstimmungen anhand eines regulären Ausdrucksmusters zu erkennen.
Darüber hinaus umfasst der Schutz sensibler Daten das Konzept der Prüfregeln, mit denen Sie die Scanergebnisse auf folgende Weise optimieren können:
- Ausschlussregeln können Sie einem integrierten oder benutzerdefinierten infoType-Detektor hinzufügen, um die Anzahl der Ergebnisse einzugrenzen.
- Hotword-Regeln können Sie einem integrierten oder benutzerdefinierten infoType-Detektor hinzufügen, um die Anzahl der Ergebnisse zu erhöhen oder den Wahrscheinlichkeitswert der Ausgabe zu ändern.
Integrierte infoType-Detektoren
Integrierte infoType-Detektoren sind in den Schutz sensibler Daten integriert. Sie umfassen Detektoren für länderspezifische oder regionsspezifische sensible Datentypen (Numéro d'Inscription au Répertoire (NIR) ( FRANCE_NIR
C <br class=UK_DRIVERS_LICENSE_NUMBER
US_SOCIAL_SECURITY_NUMBER
PERSON_NAME
PHONE_NUMBER
EMAIL_ADDRESS
CREDIT_CARD_NUMBER
Die Liste der integrierten infoType-Detektoren wird kontinuierlich aktualisiert. Eine vollständige Liste der derzeit unterstützten integrierten infoType-Detektoren finden Sie in der InfoType-Detektorreferenz.
Sie können auch die vollständige Liste aller integrierten infoType-Detektoren anzeigen lassen. Dazu rufen Sie die Methode infoTypes.list
des Schutzes sensibler Daten auf.
Integrierte infoType-Detektoren bieten keine hundertprozentig genaue Erkennungsmethode. Sie können zum Beispiel nicht die Einhaltung von gesetzlichen Vorschriften garantieren. Sie müssen entscheiden, welche Daten sensibel sind und wie sie am besten geschützt werden. Google empfiehlt, dass Sie Ihre Einstellungen testen, um zu prüfen, ob die Konfiguration Ihren Anforderungen entspricht.
Benutzerdefinierte infoType-Detektoren
Es gibt drei Arten von benutzerdefinierten infoType-Detektoren:
- Reguläre benutzerdefinierte Wörterbuchdetektoren
- Gespeicherte benutzerdefinierte Wörterbuchdetektoren
- Reguläre Ausdrücke (Regex)
Darüber hinaus umfasst der Schutz sensibler Daten Prüfregeln, mit denen Sie die Scanergebnisse optimieren können. Dazu fügen Sie den vorhandenen Detektoren Folgendes hinzu:
Reguläre benutzerdefinierte Wörterbuchdetektoren
Verwenden Sie reguläre benutzerdefinierte Wörterbuchdetektoren, wenn Sie Inhalte mit kürzeren Listen von Wörtern oder Wortgruppen (bis zu mehreren Zehntausend) auf Übereinstimmungen prüfen möchten. Ein reguläres benutzerdefiniertes Wörterbuch kann als eigener eindeutiger Detektor verwendet werden.
Benutzerdefinierte Wörterbuchdetektoren sind nützlich, wenn Sie Inhalte auf Übereinstimmungen mit einer Liste von Wörtern oder Ausdrücken prüfen möchten, die mit einem regulären Ausdruck oder einem integrierten Detektor nicht leicht gefunden werden können. Nehmen Sie zum Beispiel an, Sie möchten nach Konferenzräumen suchen, die nicht mit Raumnummern gekennzeichnet, sondern nach Namen von Ländern oder Regionen, Sehenswürdigkeiten oder fiktiven Figuren benannt sind. Hier können Sie einen regulären benutzerdefinierten Wörterbuchdetektor erstellen, der eine Liste dieser Raumnamen enthält. Der Schutz sensibler Daten kann Ihre Inhalte nach jedem der Raumnamen scannen und eine Übereinstimmung zurückgeben, wenn er im Kontext auf einen davon stößt. Weitere Informationen dazu, wie der Schutz sensibler Daten nach Wörtern und Wortgruppen aus Wörterbüchern sucht, finden Sie unter Regulären benutzerdefinierten Wörterbuchdetektor erstellen im Abschnitt Details zum Wörterbuchabgleich.
Weitere Informationen zur Funktionsweise regulärer benutzerdefinierter Wörterbuchdetektoren für infoTypes sowie Praxisbeispiele finden Sie unter Regulären benutzerdefinierten Wörterbuchdetektor erstellen.
Gespeicherte benutzerdefinierte Wörterbuchdetektoren
Verwenden Sie gespeicherte benutzerdefinierte Wörterbuchdetektoren, wenn Sie Inhalte auf sehr viele Wörter oder Wortgruppen prüfen möchten oder wenn sich diese Wörter oder Wortgruppen häufig ändern. Gespeicherte benutzerdefinierte Wörterbuchdetektoren können Dutzende Millionen von Wörtern oder Wortgruppen abgleichen.
Da gespeicherte benutzerdefinierte Wörterbuchdetektoren sehr umfangreich sind, werden sie anders erstellt als benutzerdefinierte Detektoren für reguläre Ausdrücke und reguläre benutzerdefinierte Detektoren. Jedes gespeicherte benutzerdefinierte Wörterbuch enthält zwei Komponenten:
- Eine Liste von Wortgruppen, die Sie erstellen und definieren. Die Liste wird entweder als Textdatei in Cloud Storage oder als Spalte in einer BigQuery-Tabelle gespeichert.
- Die generierten Wörterbuchdateien, die vom Schutz sensibler Daten basierend auf Ihrer Wortgruppenliste erstellt werden. Die Wörterbuchdateien werden in Cloud Storage gespeichert und bestehen aus einer Kopie der Quellwortgruppen sowie Bloomfiltern, die beim Suchen und Abgleichen helfen. Sie können diese Dateien nicht direkt bearbeiten.
Nachdem Sie eine Wortliste erstellt und dann mithilfe des Schutzes sensibler Daten ein benutzerdefiniertes Wörterbuch erstellt haben, starten oder planen Sie einen Scan mithilfe eines gespeicherten benutzerdefinierten Wörterbuchdetektors, ähnlich wie bei anderen infoType-Detektoren.
Weitere Informationen über die Funktionsweise gespeicherter benutzerdefinierter Wörterbuchdetektoren sowie Praxisbeispiele finden Sie unter Gespeicherten benutzerdefinierten Wörterbuchdetektor erstellen.
Reguläre Ausdrücke
Mit einem benutzerdefinierten infoType-Detektor für reguläre Ausdrücke (Regex) können Sie eigene infoType-Detektoren erstellen, mit denen der Schutz sensibler Daten anhand eines Regex-Musters Übereinstimmungen erkennen kann. Nehmen Sie beispielsweise an, Sie haben Krankenaktennummern im Format ###-#-#####
. Sie könnten ein Regex-Muster wie das Folgende definieren:
[1-9]{3}-[1-9]{1}-[1-9]{5}
Der Schutz sensibler Daten würde dann Elemente wie diese abgleichen:
123-4-56789
Außerdem können Sie jeder benutzerdefinierten infoType-Übereinstimmung eine Wahrscheinlichkeit zuweisen. Wenn der Schutz sensibler Daten mit der von Ihnen angegebenen Sequenz übereinstimmt, weist er also die von Ihnen angegebene Wahrscheinlichkeit zu.
Das ist nützlich, wenn der benutzerdefinierte reguläre Ausdruck eine Sequenz definiert, die allgemein genug ist, aber auch mit einer anderen zufälligen Sequenz übereinstimmen könnte. In diesem Fall soll der Schutz sensibler Daten nicht jede Übereinstimmung mit VERY_LIKELY
kennzeichnen. Dies würde nämlich die Zuverlässigkeit der Scanergebnisse beeinträchtigen und möglicherweise dazu führen, dass die falsche Information de-identifiziert wird.
Weitere Informationen zu regulären infoType-Detektoren für reguläre Ausdrücke sowie Praxisbeispiele finden Sie unter Benutzerdefinierten Regex-Detektor erstellen.
Prüfregeln
Inspektionsregeln werden verwendet, um die von vorhandenen, regulären oder benutzerdefinierten, infoType-Detektoren zurückgegebenen Ergebnisse zu verfeinern. Prüfregeln können nützlich sein, wenn die Ergebnisse, die der Schutz sensibler Daten zurückgibt, in irgendeiner Weise erweitert werden müssen. Dazu müssen sie entweder dem vorhandenen infoType-Detektor hinzugefügt oder von diesem ausgeschlossen werden.
Die zwei Arten von Prüfregeln sind:
- Ausschlussregeln
- Hotword-Regeln
Weitere Informationen zu Prüfregeln finden Sie unter infoType-Detektoren zum Verfeinern von Prüfergebnissen ändern.
Ausschlussregeln
Durch Ausschlussregeln können Sie die Anzahl oder die Genauigkeit von zurückgegebenen Ergebnissen eingrenzen. Fügen Sie dafür einem integrierten oder benutzerdefinierten infoType-Detektor Regeln hinzu. Ausschlussregeln tragen dazu bei, die Ausgabe falscher positiver Ergebnisse oder anderer unerwünschter Ergebnisse durch einen infoType-Detektor zu reduzieren.
Wenn Sie beispielsweise eine Datenbank nach E-Mail-Adressen scannen, können Sie eine Ausschlussregel in Form eines benutzerdefinierten Regex einfügen, der den Schutz sensibler Daten anweist, alle Ergebnisse auszuschließen, die auf „@beispiel.de“ enden.
Weitere Informationen zu Ausschlussregeln finden Sie unter infoType-Detektoren zum Verfeinern von Prüfergebnissen ändern.
Hotword-Regeln
Durch Hotword-Regeln können Sie die Anzahl oder die Genauigkeit von zurückgegebenen Ergebnissen erhöhen. Fügen Sie dafür einem integrierten oder benutzerdefinierten infoType-Detektor Regeln hinzu. Mit Hotword-Regeln werden die Regeln vorhandener infoType-Detektoren gelockert.
Angenommen, Sie möchten in einer medizinischen Datenbank Patientennamen suchen. Sie können zwar den integrierten infoType-Detektor PERSON_NAME
für den Schutz sensibler Daten verwenden, dies führt jedoch dazu, dass der Schutz sensibler Daten bei allen Personennamen, nicht nur bei Namen von Patienten, übereinstimmt. Zur Behebung dieses Problems können Sie eine Hotword-Regel in Form eines regulären Ausdrucks als benutzerdefinierten infoType einfügen, die in einem bestimmten Zeichenabstand vom ersten Zeichen möglicher Übereinstimmungen nach dem Wort "Patient" sucht. Ergebnissen, die diesem Muster entsprechen, können Sie dann eine Wahrscheinlichkeit von "sehr wahrscheinlich" zuweisen, da sie Ihren speziellen Kriterien entsprechen.
Weitere Informationen zu Hotword-Regeln finden Sie unter infoType-Detektoren zum Verfeinern von Prüfergebnissen ändern.