Cloud Data Loss Prevention (DLP) verwendet Informationstypen bzw. infoTypes, um zu definieren, wonach gescannt wird. Ein infoType ist ein Typ sensibler Daten wie Name, E-Mail-Adresse, Telefonnummer, Sozialversicherungsnummer, Kreditkartennummer usw. Ein infoType-Detektor ist der entsprechende Erkennungsmechanismus, der mit den Abgleichskriterien eines infoType übereinstimmt.
So verwenden Sie infoTypes
Cloud DLP verwendet in der Konfiguration für seine Scans infoType-Detektoren, um zu bestimmen, wonach gesucht werden soll und wie die Ergebnisse transformiert werden. Die infoType-Namen werden auch für die Anzeige von Scanergebnissen oder in entsprechenden Berichten verwendet.
Wenn Sie beispielsweise nach E-Mail-Adressen in einem Textblock suchen möchten, geben Sie den infoType-Detektor EMAIL_ADDRESS
in der Inspektionskonfiguration an. Wenn Sie E-Mail-Adressen aus dem Textblock entfernen möchten, geben Sie sowohl in der Inspektionskonfiguration als auch in der De-Identifikationskonfiguration EMAIL_ADDRESS
an, um anzugeben, wie dieser Typ entfernt oder angepasst werden soll.
Darüber hinaus können Sie eine Kombination aus integrierten und benutzerdefinierten infoType-Detektoren verwenden, um einen Teil der E-Mail-Adressen aus den Scanergebnissen auszuschließen. Erstellen Sie zuerst einen benutzerdefinierten infoType namens INTERNAL_EMAIL_ADDRESS
und konfigurieren Sie ihn so, dass interne Test-E-Mail-Adressen ausgeschlossen werden. Anschließend können Sie Ihren Scan so einrichten, dass Ergebnisse für EMAIL_ADDRESS
eingeschlossen werden. Sie können aber eine Ausschlussregel hinzufügen, die alle Ergebnisse ausschließt, die mit INTERNAL_EMAIL_ADDRESS
übereinstimmen. Weitere Informationen zu Ausschlussregeln und andere Features von benutzerdefinierten infoType-Detektoren finden Sie unter Benutzerdefinierte infoType-Detektoren erstellen.
Cloud DLP bietet eine Reihe von integrierten infoType-Detektoren, die Sie namentlich angeben und die alle in der InfoType-Detektorreferenz aufgeführt sind. Diese Detektoren verwenden verschiedene Techniken, um jeden Typ zu ermitteln und zu klassifizieren. Einige Typen erfordern beispielsweise eine Musterübereinstimmung, bei anderen kann es sich um mathematische Prüfsummen handeln, andere haben spezielle Zifferneinschränkungen und andere können bestimmte Präfixe oder Kontext zu den Ergebnissen haben.
Beispiele
Wenn Sie Cloud DLP zum Scannen Ihrer Inhalte einrichten, geben Sie die zu verwendenden infoType-Detektoren in der Scankonfiguration an.
Die folgenden JSON- und Codebeispiele veranschaulichen beispielsweise eine einfache Scananfrage an die Cloud DLP API. Beachten Sie, dass der Detektor PHONE_NUMBER
in inspectConfig
angegeben ist. Damit wird Cloud DLP angewiesen, in dem angegebenen String nach einer Telefonnummer zu suchen.
Protokoll
JSON-Eingabe:
POST https://dlp.googleapis.com/v2/projects/[PROJECT-ID]/content:inspect?key={YOUR_API_KEY}
{
"item":{
"value":"My phone number is (415) 555-0890"
},
"inspectConfig":{
"includeQuote":true,
"minLikelihood":"POSSIBLE",
"infoTypes":{
"name":"PHONE_NUMBER"
}
}
}
Wenn Sie die vorherige Anfrage an den angegebenen Endpunkt senden, gibt Cloud DLP Folgendes zurück:
JSON-Ausgabe:
{
"result":{
"findings":[
{
"quote":"(415) 555-0890",
"infoType":{
"name":"PHONE_NUMBER"
},
"likelihood":"VERY_LIKELY",
"location":{
"byteRange":{
"start":"19",
"end":"33"
},
"codepointRange":{
"start":"19",
"end":"33"
}
},
"createTime":"2018-10-29T23:46:34.535Z"
}
]
}
}
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Cloud DLP finden Sie hier.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Cloud DLP finden Sie hier.
Wenn Sie präzisere Steuerungs- und Vorhersagebarkeit dafür benötigen, welche Detektoren ausgeführt werden, sollten Sie bestimmte infoTypes in der Referenz angeben. Andernfalls verwendet Cloud DLP eine Standardliste, ändern. Je nach Umfang der zu scannenden Inhalte kann das Scannen nach Standard infoTypes zeitsparend oder kostenintensiv sein.
Weitere Informationen zur Verwendung von infoType-Detektoren zum Scannen von Inhalten finden Sie in den Anleitungen zu den Themen Prüfung, Entfernung und De-Identifikation.
Sicherheit und Tests
Die Ergebnisse werden mit einer Konfidenzbewertung, der sogenannten Wahrscheinlichkeit, gemeldet. Der Wahrscheinlichkeitswert gibt an, mit welcher Wahrscheinlichkeit ein Ergebnis mit dem entsprechenden Typ übereinstimmt. Beispiel: Ein Typ gibt möglicherweise eine geringere Wahrscheinlichkeit zurück, wenn er nur dem Muster entspricht und eine höhere Wahrscheinlichkeit zurückgibt, wenn er mit dem Muster übereinstimmt und einen positiven Kontext dafür aufweist. Aus diesem Grund stellen Sie eventuell fest, dass ein einzelnes Ergebnis mehreren Typen mit geringer Wahrscheinlichkeit zugeordnet werden kann. Außerdem kann ein Ergebnis nicht angezeigt werden oder seine Genauigkeit hat, wenn er nicht korrekt passt oder der potenzielle Kontext negativ ist. Es wird beispielsweise ein Ergebnis zurückgegeben, wenn er der Struktur für den angegebenen infoType entspricht, dabei aber die Prüfsumme des infoType nicht besteht. Es kann auch vorkommen, dass für ein Ergebnis mehr als ein infoType gefunden wird, der Kontext jedoch einen davon erhöht und daher nur für diesen Typ gemeldet wird.
Wenn Sie verschiedene Detektoren testen, stellen Sie möglicherweise fest, dass falsche Daten oder Beispieldaten nicht gemeldet werden, da sie nicht genügend Prüfungen bestehen.
Arten von infoType-Detektoren
Cloud DLP enthält mehrere Arten von infoType-Detektoren, die hier zusammengefasst sind:
- Integrierte infoType-Detektoren sind in Cloud DLP eingebunden. Dazu gehören Detektoren für länder- oder regionsspezifische sensible Datentypen sowie global anwendbare Datentypen.
- Benutzerdefinierte infoType-Detektoren sind Detektoren, die Sie selbst erstellen. Es gibt drei Arten von benutzerdefinierten infoType-Detektoren:
- Kleine benutzerdefinierte Wörterbuchdetektoren sind einfache Wortlisten, in denen Cloud DLP nach Übereinstimmungen sucht. Verwenden Sie kleine benutzerdefinierte Wörterbuchdetektoren, wenn Sie eine Liste mit mehreren Zehntausend Wörtern oder Wortgruppen haben. Kleine benutzerdefinierte Wörterbuchdetektoren werden bevorzugt, wenn Sie nicht erwarten, dass sich Ihre Wortliste erheblich ändert.
- Große benutzerdefinierte Wörterbuchdetektoren werden von Cloud DLP unter Verwendung umfangreicher Listen von Wörtern oder Wortgruppen erstellt, die entweder in Cloud Storage oder BigQuery gespeichert sind. Verwenden Sie große benutzerdefinierte Wörterbuchdetektoren, wenn Sie eine große Liste mit (bis zu zehn Millionen) Wörtern oder Wortgruppen haben.
- Detektoren regulärer Ausdrücke (Regex-Detektoren) ermöglichen es Cloud DLP, Übereinstimmungen anhand eines regulären Ausdrucksmusters zu erkennen.
Außerdem gilt in Cloud DLP das Konzept der Inspektionsregeln, mit denen Sie die Scanergebnisse so verfeinern können:
- Ausschlussregeln können Sie einem integrierten oder benutzerdefinierten infoType-Detektor hinzufügen, um die Anzahl der Ergebnisse einzugrenzen.
- Hotword-Regeln können Sie einem integrierten oder benutzerdefinierten infoType-Detektor hinzufügen, um die Anzahl der Ergebnisse zu erhöhen oder den Wahrscheinlichkeitswert der Ausgabe zu ändern.
Integrierte infoType-Detektoren
Integrierte infoType-Detektoren sind in Cloud DLP bereits enthalten und umfassen Detektoren für länder- oder regionsspezifische sensible Daten wie die französische Numéro d'Inscription au Répertoire (NIR) (FRANCE_NIR
), die britische Führerscheinnummer (UK_DRIVERS_LICENSE_NUMBER
) und die US-amerikanische Sozialversicherungsnummer (US_SOCIAL_SECURITY_NUMBER
). Ebenfalls enthalten sind Detektoren für global anwendbare Datentypen wie Namen von Personen (PERSON_NAME
), Telefonnummern (PHONE_NUMBER
), E-Mail-Adressen (EMAIL_ADDRESS
) und Kreditkartennummern (CREDIT_CARD_NUMBER
). Zur Erkennung von Inhalten, die den infoTypes entsprechen, nutzt Cloud DLP verschiedene Techniken wie Mustererkennung, Prüfsummen, maschinelles Lernen, Kontextanalyse und andere.
Die Liste der integrierten infoType-Detektoren wird kontinuierlich aktualisiert. Eine vollständige Liste der derzeit unterstützten integrierten infoType-Detektoren finden Sie in der InfoType-Detektorreferenz.
Sie können auch die vollständige Liste aller integrierten infoType-Detektoren ansehen. Dazu müssen Sie die Methode infoTypes.list
von Cloud DLP aufrufen.
Integrierte infoType-Detektoren bieten keine hundertprozentig genaue Erkennungsmethode. Sie können zum Beispiel nicht die Einhaltung von gesetzlichen Vorschriften garantieren. Sie müssen entscheiden, welche Daten sensibel sind und wie sie am besten geschützt werden. Google empfiehlt, dass Sie Ihre Einstellungen testen, um zu prüfen, ob die Konfiguration Ihren Anforderungen entspricht.
Benutzerdefinierte infoType-Detektoren
Es gibt drei Arten von benutzerdefinierten infoType-Detektoren:
- Kleine benutzerdefinierte Wörterbuchdetektoren
- Große benutzerdefinierte Wörterbuchdetektoren
- Reguläre Ausdrücke (Regex)
Darüber hinaus enthält Cloud DLP folgende Prüfregeln, mit denen Sie die Scanergebnisse mit den folgenden vorhandenen Detektoren verfeinern können:
Kleine benutzerdefinierte Wörterbuchdetektoren
Verwenden Sie kleine benutzerdefinierte Wörterbuchdetektoren (auch als "reguläre benutzerdefinierte Wörterbuchdetektoren" bezeichnet), um eine kurze Liste mit Wörtern oder Wortgruppen (bis zu mehreren Zehntausenden) zu erfassen. , um die Option zu aktivieren. Ein kleines benutzerdefiniertes Wörterbuch kann als eigener eindeutiger Detektor verwendet werden.
Benutzerdefinierte Wörterbuchdetektoren sind nützlich, wenn Sie Inhalte auf Übereinstimmungen mit einer Liste von Wörtern oder Ausdrücken prüfen möchten, die mit einem regulären Ausdruck oder einem integrierten Detektor nicht leicht gefunden werden können. Nehmen Sie zum Beispiel an, Sie möchten nach Konferenzräumen suchen, die nicht mit Raumnummern gekennzeichnet, sondern nach Namen von Ländern oder Regionen, Sehenswürdigkeiten oder fiktiven Figuren benannt sind. Hier können Sie einen kleinen benutzerdefinierten Wörterbuchdetektor erstellen, der eine Liste dieser Raumnamen enthält. Cloud DLP kann Ihren Inhalt nach allen enthaltenen Raumnamen prüfen und eine Übereinstimmung zurückgeben, wenn er im Kontext einen davon findet. Weitere Informationen dazu, wie Cloud DLP nach Wörtern und Wortgruppen aus Wörterbüchern sucht, finden Sie unter Regulären benutzerdefinierten Wörterbuchdetektor erstellen im Abschnitt Details zum Wörterbuchabgleich. 3}
Weitere Informationen zur Funktionsweise von kleinen benutzerdefinierte infoType-Wörterbuchdetektoren sowie Beispiele in der Praxis finden Sie unter Regulären benutzerdefinierten Wörterbuchdetektor erstellen.
Große benutzerdefinierte Wörterbuchdetektoren
Verwenden Sie große benutzerdefinierte Wörterbuchdetektoren (auch als "gespeicherte benutzerdefinierte Wörterbuchdetektoren" bezeichnet), wenn Sie mehr als ein paar Wörter oder Wortgruppen scannen möchten oder wenn Ihre Wortliste enthalten ist. oder Wortgruppen ändern. Große benutzerdefinierte Wörterbuchdetektoren können Dutzende Millionen von Wörtern oder Wortgruppen abgleichen.
Große benutzerdefinierte Wörterbuchdetektoren werden anders erstellt als benutzerdefinierte Detektoren für reguläre Ausdrücke und kleine benutzerdefinierte Wörterbuchdetektoren. Jedes große benutzerdefinierte Wörterbuch umfasst zwei Komponenten:
- Eine Liste von Wortgruppen, die Sie erstellen und definieren. Die Liste wird entweder als Textdatei in Cloud Storage oder als Spalte in einer BigQuery-Tabelle gespeichert.
- Die erstellten Wörterbuchdateien, die von Cloud DLP anhand Ihrer Wortgruppenliste erstellt werden. Die Wörterbuchdateien werden in Cloud Storage gespeichert und bestehen aus einer Kopie der Quellwortgruppen sowie Bloomfiltern, die beim Suchen und Abgleichen helfen. Sie können diese Dateien nicht direkt bearbeiten.
Nachdem Sie eine Wortliste erstellt und dann mit Cloud DLP ein benutzerdefiniertes Wörterbuch generiert haben, starten oder planen Sie einen Scan mithilfe eines großen benutzerdefinierten Wörterbuchdetektors, ähnlich wie mit anderen infoType-Detektoren.
Weitere Informationen zur Funktionsweise von großen benutzerdefinierten Wörterbuchdetektoren sowie Beispiele in der Praxis finden Sie unter Gespeicherten benutzerdefinierten Wörterbuchdetektor erstellen.
Reguläre Ausdrücke
Ein benutzerdefinierter, auf einem regulären Ausdruck (Regex) basierender infoType-Detektor ermöglicht es Ihnen, eigene infoType-Detektoren zu erstellen, mit denen Cloud DLP Übereinstimmungen anhand eines Regex-Musters erkennen kann. Nehmen Sie beispielsweise an, Sie haben Krankenaktennummern im Format ###-#-#####
. Sie könnten ein Regex-Muster wie das Folgende definieren:
[1-9]{3}-[1-9]{1}-[1-9]{5}
Cloud DLP prüft dann auf Übereinstimmungen mit Elementen wie diesem:
123-4-56789
Außerdem können Sie jeder benutzerdefinierten infoType-Übereinstimmung eine Wahrscheinlichkeit zuweisen. Wenn Cloud DLP also mit der von Ihnen angegebenen Sequenz übereinstimmt, wird die von Ihnen angegebene Wahrscheinlichkeit zugewiesen. Dies ist nützlich, wenn Ihr benutzerdefinierter Regex einer Sequenz entspricht, die allgemein verwendet wird und auch anderen, nicht relevanten Sequenzen entsprechen könnte. In diesem Fall sollte Cloud DLP nicht jede Übereinstimmung als VERY_LIKELY
einstufen. Dies würde nämlich die Zuverlässigkeit der Scanergebnisse beeinträchtigen und möglicherweise dazu führen, dass die falsche Information de-identifiziert wird.
Weitere Informationen zu regulären infoType-Detektoren für reguläre Ausdrücke sowie Praxisbeispiele finden Sie unter Benutzerdefinierten Regex-Detektor erstellen.
Inspektionsregeln
Inspektionsregeln werden verwendet, um die von vorhandenen, regulären oder benutzerdefinierten, infoType-Detektoren zurückgegebenen Ergebnisse zu verfeinern. Inspektionsregeln können nützlich sein, wenn die Ergebnisse, die Cloud DLP zurückgibt, auf beliebige Weise erweitert werden müssen. Dazu werden Elemente entweder dem vorhandenen infoType-Detektor hinzugefügt oder von diesem ausgeschlossen.
Die zwei Arten von Inspektionsregeln sind:
- Ausschlussregeln
- Hotword-Regeln
Weitere Informationen zu Inspektionsregeln finden Sie unter infoType-Detektoren zum Verfeinern von Scanergebnissen anpassen.
Ausschlussregeln
Sie können einem integrierten oder benutzerdefinierten infoType-Detektor Ausschlussregeln hinzufügen, um die Anzahl oder die Genauigkeit der Ergebnisse einzugrenzen. Ausschlussregeln tragen dazu bei, die Ausgabe falscher positiver Ergebnisse oder anderer unerwünschter Ergebnisse durch einen infoType-Detektor zu reduzieren.
Wenn Sie beispielsweise in einer Datenbank nach E-Mail-Adressen suchen, können Sie eine Ausschlussregel in Form eines benutzerdefinierten Regex einfügen, mit dem Cloud DLP angewiesen wird, alle Ergebnisse auszuschließen, die auf "@beispiel.com" enden.
Weitere Informationen zu Ausschlussregeln finden Sie unter infoType-Detektoren zum Verfeinern von Scanergebnissen anpassen.
Hotword-Regeln
Sie können einem integrierten oder benutzerdefinierten infoType-Detektor Hotword-Regeln einfügen, um die Anzahl oder die Genauigkeit der Ergebnisse zu erhöhen. Mit Hotword-Regeln werden die Regeln vorhandener infoType-Detektoren gelockert.
Angenommen, Sie möchten eine medizinische Datenbank nach Patientennamen durchsuchen. Sie können zwar den in Cloud DLP integrierten infoType-Detektor PERSON_NAME
verwenden, dies führt aber dazu, dass Cloud DLP Übereinstimmungen bei allen Personennamen zurückgibt, nicht nur bei Namen von Patienten. Zur Behebung dieses Problems können Sie eine Hotword-Regel in Form eines regulären Ausdrucks als benutzerdefinierten infoType einfügen, die in einem bestimmten Zeichenabstand vom ersten Zeichen möglicher Übereinstimmungen nach dem Wort "Patient" sucht. Ergebnissen, die diesem Muster entsprechen, können Sie dann eine Wahrscheinlichkeit von "sehr wahrscheinlich" zuweisen, da sie Ihren speziellen Kriterien entsprechen.
Weitere Informationen zu Hotword-Regeln finden Sie unter infoType-Detektoren zum Verfeinern von Scanergebnissen anpassen.
Beispiele
Für ein besseres Verständnis dafür, wie infoTypes mit Ergebnissen übereinstimmen, sehen Sie sich die folgenden Beispiele für Übereinstimmungen mit einer Reihe von Ziffern an. Hier wird bestimmt, ob sie eine US-Sozialversicherungsnummer oder eine US-amerikanische Steueridentifikationsnummer bilden. Beachten Sie, dass sich diese Beispiele auf integrierte infoType-Detektoren beziehen. Wenn Sie einen benutzerdefinierten infoType-Detektor erstellen, geben Sie die Kriterien an, die die Wahrscheinlichkeit einer Scanübereinstimmung bestimmen.
Beispiel 1
"SSN 222-22-2222"
Meldet einen hohen Wahrscheinlichkeitswert von VERY_LIKELY
für US_SOCIAL_SECURITY_NUMBER
aus folgenden Gründen:
- Es hat das Standardformat für Sozialversicherungsnummern, was die Sicherheit erhöht.
- Es hat Kontext in der Nähe ("SSN"), der ihn in Richtung
US_SOCIAL_SECURITY_NUMBER
verbessert.
Beispiel 2
"999-99-9999"
Meldet einen niedrigen Wahrscheinlichkeitswert von VERY_UNLIKELY
für US_SOCIAL_SECURITY_NUMBER
aus folgenden Gründen:
- Es hat das Standardformat, was die Sicherheit erhöht.
- Es beginnt mit einer 9, die in Sozialversicherungsnummern nicht zulässig ist, wodurch die Sicherheit verringert wird.
- Es fehlt der Kontext, was die Sicherheit verringert.
Beispiel 3
"999-98-9999"
Meldet einen Wahrscheinlichkeitswert von POSSIBLE
für US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
und VERY_UNLIKELY
für US_SOCIAL_SECURITY_NUMBER
aus folgenden Gründen:
- Es hat das Standardformat für
US_SOCIAL_SECURITY_NUMBER
undUS_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
. - Es beginnt mit einer 9 und hat eine weitere Ziffernprüfung, was die Sicherheit für
US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
erhöht. - Es hat keinen Kontext, was die Sicherheit für beide verringert.
Weitere Informationen
Das Cloud DLP-Team veröffentlicht regelmäßig neue infoType-Detektoren und -Gruppen. Informationen zum Abrufen der neuesten Liste der integrierten infoTypes finden Sie unter Integrierte infoType-Detektoren auflisten.