In diesem Thema wird beschrieben, wie Sie große benutzerdefinierte Wörterbücher erstellen und neu erstellen. Außerdem werden mehrere Fehlerszenarien behandelt.
Wann ein großes benutzerdefiniertes Wörterbuch anstelle eines regulären benutzerdefinierten Wörterbuchs verwendet werden sollte
Reguläre benutzerdefinierte Wörterbuchdetektoren sind ausreichend, wenn Sie Zehntausende vertrauliche Wörter oder Wortgruppen haben, nach denen Sie Ihre Inhalte durchsuchen möchten. Wenn Sie mehr Begriffe haben oder sich Ihre Begriffsliste häufig ändert, können Sie ein großes benutzerdefiniertes Wörterbuch erstellen, das bis zu mehrere zehn Millionen Begriffe unterstützt.
Unterschiede zwischen großen benutzerdefinierten Wörterbüchern und anderen benutzerdefinierten infoTypes
Große benutzerdefinierte Wörterbücher unterscheiden sich von anderen benutzerdefinierten infoTypes dadurch, dass jedes große benutzerdefinierte Wörterbuch zwei Komponenten hat:
- Eine Liste von Wortgruppen, die Sie erstellen und definieren. Die Liste wird entweder als Textdatei in Cloud Storage oder als Spalte in einer BigQuery-Tabelle gespeichert.
- Die Wörterbuchdateien, die vom Schutz sensibler Daten generiert und in Cloud Storage gespeichert werden. Wörterbuchdateien bestehen aus einer Kopie Ihrer Begriffsliste sowie Bloomfiltern, die beim Suchen und Abgleichen helfen.
Großes benutzerdefiniertes Wörterbuch erstellen
In diesem Abschnitt wird beschrieben, wie Sie ein großes benutzerdefiniertes Wörterbuch erstellen, bearbeiten und neu erstellen.
Begriffsliste erstellen
Erstellen Sie eine Liste mit allen Wörtern und Wortgruppen, nach denen der neue infoType-Detektor suchen soll. Führen Sie einen der folgenden Schritte aus:
- Platzieren Sie eine Textdatei, in der jedes Wort bzw. jede Wortgruppe in einer eigenen Zeile steht, in einem Cloud Storage-Bucket.
- Legen Sie eine Spalte einer BigQuery-Tabelle als Container für die Wörter und Wortgruppen fest. Geben Sie jedem Eintrag eine eigene Zeile in der Spalte. Sie können eine vorhandene BigQuery-Tabelle verwenden, sofern sich alle Wörterbuchwörter und -wortgruppen in einer einzigen Spalte befinden.
Es ist möglich, eine Begriffsliste zu erstellen, die für die Verarbeitung durch Sensitive Data Protection zu groß ist. Wenn Sie eine Fehlermeldung erhalten, lesen Sie den Abschnitt Fehlerbehebung weiter unten in diesem Thema.
Gespeicherten infoType erstellen
Nachdem Sie Ihre Begriffsliste erstellt haben, verwenden Sie den Schutz sensibler Daten, um ein Wörterbuch zu erstellen:
Console
Erstellen Sie in einem Cloud Storage-Bucket einen neuen Ordner, in dem der Schutz sensibler Daten das generierte Wörterbuch speichert.
Der Schutz sensibler Daten erstellt am angegebenen Speicherort Ordner mit den Wörterbuchdateien.
Rufen Sie in der Google Cloud Console die Seite Infotyp erstellen auf.
Wählen Sie unter Typ die Option Großes benutzerdefiniertes Wörterbuch aus.
Geben Sie unter InfoType-ID eine Kennung für den gespeicherten infoType ein.
Sie verwenden diese Kennung, wenn Sie Ihre Inspektions- und De-Identifikationsjobs konfigurieren. Sie können im Namen Buchstaben, Ziffern, Bindestriche und Unterstriche verwenden.
Geben Sie unter InfoType-Anzeigename einen Namen für den gespeicherten infoType ein.
Sie können im Namen Leerzeichen und Satzzeichen verwenden.
Geben Sie unter Beschreibung eine Beschreibung dafür ein, was der gespeicherte infoType erkennt.
Wählen Sie unter Speichertyp den Speicherort der Begriffsliste aus:
- BigQuery: Geben Sie die Projekt-ID, die Dataset-ID und die Tabellen-ID ein. Geben Sie im Feld Feldname die Spalten-ID ein. Sie können aus der Tabelle höchstens eine Spalte angeben.
- Google Cloud Storage: Geben Sie den Pfad zur Datei ein.
Geben Sie unter Ausgabe-Bucket oder -Ordner den Cloud Storage-Speicherort des Ordners ein, den Sie in Schritt 1 erstellt haben.
Klicken Sie auf Erstellen.
Eine Zusammenfassung des gespeicherten infoTypes wird angezeigt. Wenn das Wörterbuch generiert wurde und der neue gespeicherte infoType einsatzbereit ist, wird als Status Bereit angezeigt.
C#
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
PHP
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
REST
- Erstellen Sie in einem Cloud Storage-Bucket einen neuen Ordner für das Wörterbuch. Der Schutz sensibler Daten erstellt am angegebenen Speicherort Ordner mit den Wörterbuchdateien.
- Erstellen Sie das Wörterbuch mit der Methode
storedInfoTypes.create
. Die Methodecreate
verwendet folgende Parameter:- Ein Objekt
StoredInfoTypeConfig
, das die Konfiguration des gespeicherten infoType enthält. Dazu gehören:description
: eine Beschreibung des Wörterbuchs.displayName
: der Name, den Sie dem Wörterbuch geben möchten.LargeCustomDictionaryConfig
: enthält die Konfiguration des großen benutzerdefinierten Wörterbuchs. Es enthält Folgendes:BigQueryField
: wird angegeben, wenn die Begriffsliste in BigQuery gespeichert ist. Enthält einen Verweis auf die Tabelle, in der Ihre Liste gespeichert ist, sowie das Feld, das die einzelnen Wortgruppen im Wörterbuch enthält.CloudStorageFileSet
: wird angegeben, wenn die Begriffsliste in Cloud Storage gespeichert ist. Enthält die URL zum Quellspeicherort in Cloud Storage im folgenden Format:"gs://[PATH_TO_GS]"
. Platzhalter werden unterstützt.outputPath
: der Pfad zum Speicherort in einem Cloud Storage-Bucket, in dem das erstellte Wörterbuch gespeichert wird.
storedInfoTypeId
: Die Kennzeichnung für den gespeicherten infoType. Mit dieser Kennung verweisen Sie auf den gespeicherten infoType, wenn Sie ihn neu erstellen, löschen oder in einem Inspektions- oder De-Identifikationsjob verwenden. Wenn Sie dieses Feld leer lassen, generiert das System eine Kennzeichnung für Sie.
- Ein Objekt
Es folgt ein JSON-Beispiel, das beim Senden an die Methode storedInfoTypes.create
einen neuen gespeicherten infoType erstellt, insbesondere einen Detektor für ein großes benutzerdefiniertes Wörterbuch. In diesem Beispiel wird ein gespeicherter Infotyp aus einer Begriffsliste erstellt, die in einer öffentlich verfügbaren BigQuery-Datenbank (bigquery-public-data.samples.github_nested
) gespeichert ist. Die Datenbank enthält alle GitHub-Nutzernamen, die in Commits verwendet wurden. Der Ausgabepfad für das generierte Wörterbuch wird auf einen Cloud Storage-Bucket namens dlptesting
festgelegt und der gespeicherte infoType hat den Namen github-usernames
.
JSON-Eingabe
POST https://dlp.googleapis.com/v2/projects/PROJECT_ID/storedInfoTypes
{
"config":{
"displayName":"GitHub usernames",
"description":"Dictionary of GitHub usernames used in commits",
"largeCustomDictionary":{
"outputPath":{
"path":"gs://[PATH_TO_GS]"
},
"bigQueryField":{
"table":{
"datasetId":"samples",
"projectId":"bigquery-public-data",
"tableId":"github_nested"
}
}
}
},
"storedInfoTypeId":"github-usernames"
}
Wörterbuch neu erstellen
Wenn Sie Ihr Wörterbuch aktualisieren möchten, aktualisieren Sie zuerst die Liste der Quellbegriffe. Weisen Sie dann Sensitive Data Protection an, den gespeicherten infoType neu zu erstellen.
Aktualisieren Sie die vorhandene Liste der Quellbegriffe in Cloud Storage oder BigQuery.
Fügen Sie die Begriffe oder Wortgruppen nach Bedarf hinzu, entfernen oder ändern Sie sie.
Erstellen Sie eine neue Version des gespeicherten infoType, indem Sie es entweder mit der Google Cloud Console oder der Methode
storedInfoTypes.patch
„neu erstellen“.Dadurch wird eine neue Version des Wörterbuchs erstellt, die das alte Wörterbuch ersetzt.
Wenn Sie einen gespeicherten infoType in eine neue Version umwandeln, wird die alte Version gelöscht. Während der Schutz sensibler Daten den gespeicherten infoType aktualisiert, ist der Status „ausstehend“. In dieser Zeit ist die alte Version des gespeicherten infoType noch vorhanden. Alle Scans, die Sie ausführen, während der gespeicherte infoType den Status „Ausstehend“ hat, werden unter Verwendung der alten Version des gespeicherten infoType ausgeführt.
So erstellen Sie den gespeicherten infoType neu:
Console
- Aktualisieren und speichern Sie die Begriffsliste in Cloud Storage oder BigQuery.
Rufen Sie in der Google Cloud Console die Liste der gespeicherten Infotypen auf.
Klicken Sie auf die ID des gespeicherten infoType, den Sie aktualisieren möchten.
Klicken Sie auf der Seite InfoType-Details auf Daten neu erstellen.
Der Schutz sensibler Daten erstellt den gespeicherten infoType mit den Änderungen neu, die Sie an der Liste der Quellbegriffe vorgenommen haben. Sobald der Status des gespeicherten infoTypes „Bereit“ lautet, können Sie ihn verwenden. Alle Vorlagen oder Job-Trigger, die den gespeicherten infoType verwenden, verwenden automatisch die neu erstellte Version.
C#
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
PHP
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
REST
Begriffsliste aktualisieren
Wenn Sie nur die Liste der Begriffe im großen benutzerdefinierten Wörterbuch aktualisieren, ist für Ihre storedInfoTypes.patch
-Anfrage nur das Feld name
erforderlich. Geben Sie den vollständigen Ressourcennamen des gespeicherten infoTypes an, den Sie neu erstellen möchten.
Die folgenden Muster stellen gültige Einträge für das Feld name
dar:
organizations/ORGANIZATION_ID/storedInfoTypes/STORED_INFOTYPE_ID
projects/PROJECT_ID/storedInfoTypes/STORED_INFOTYPE_ID
Ersetzen Sie STORED_INFOTYPE_ID durch die Kennung des gespeicherten „infoType“, den Sie neu erstellen möchten.
Wenn Sie die Kennzeichnung des gespeicherten infoTypes nicht kennen, rufen Sie die Methode storedInfoTypes.list
auf, um eine Liste aller aktuell gespeicherten infoTypes aufzurufen.
Beispiel
PATCH https://dlp.googleapis.com/v2/projects/PROJECT_ID/storedInfoTypes/STORED_INFOTYPE_ID
In diesem Fall ist kein Anfragetext erforderlich.
Liste der Quellbegriffe wechseln
Sie können die Liste der Quellbegriffe für einen gespeicherten Infotyp von einer in BigQuery gespeicherten in eine in Cloud Storage gespeicherte Liste ändern. Verwenden Sie die Methode storedInfoTypes.patch
, schließen Sie aber in LargeCustomDictionaryConfig
anstelle des BigQueryField
-Objekts ein CloudStorageFileSet
-Objekt ein. Legen Sie dann den Parameter updateMask
auf den neu erstellten gespeicherten infoType-Parameter im Format FieldMask
fest. In der folgenden JSON-Datei wird beispielsweise im Parameter updateMask
angegeben, dass die URL des Cloud Storage-Pfads aktualisiert wurde (large_custom_dictionary.cloud_storage_file_set.url
):
Beispiel
PATCH https://dlp.googleapis.com/v2/projects/PROJECT_ID/storedInfoTypes/github-usernames
{
"config":{
"largeCustomDictionary":{
"cloudStorageFileSet":{
"url":"gs://[BUCKET_NAME]/[PATH_TO_FILE]"
}
}
},
"updateMask":"large_custom_dictionary.cloud_storage_file_set.url"
}
Ebenso können Sie die Begriffsliste von einer in einer BigQuery-Tabelle gespeicherten in eine in einem Cloud Storage-Bucket gespeicherte Liste ändern.
Inhalte mit einem großen benutzerdefinierten Wörterbuchdetektor scannen
Das Scannen von Inhalten mit einem großen benutzerdefinierten Wörterbuchdetektor ähnelt dem Scannen von Inhalten mit einem anderen benutzerdefinierten infoType-Detektor.
Bei dieser Vorgehensweise wird davon ausgegangen, dass Sie bereits einen gespeicherten infoType haben. Weitere Informationen finden Sie auf dieser Seite unter Gespeicherten infoType erstellen.
Console
Sie können einen großen benutzerdefinierten Wörterbuchdetektor in folgenden Fällen anwenden:
- Neuen Job erstellen
- Job-Trigger erstellen oder bearbeiten
- Vorlage erstellen oder bearbeiten
- Datenprofilerstellung konfigurieren
Geben Sie im Abschnitt Erkennung konfigurieren im Unterabschnitt InfoTypes den InfoType für das große benutzerdefinierte Wörterbuch an.
- Klicken Sie auf Infotypen verwalten.
- Klicken Sie im Bereich InfoTypes auf den Tab Benutzerdefiniert.
- Klicken Sie auf Benutzerdefinierten infoType hinzufügen.
Führen Sie im Bereich Benutzerdefinierten infoType hinzufügen die folgenden Schritte aus:
- Wählen Sie unter Typ die Option Gespeicherter infoType aus.
- Geben Sie unter InfoType einen Namen für den benutzerdefinierten infoType ein. Sie können Buchstaben, Ziffern und Unterstriche verwenden.
Wählen Sie unter Wahrscheinlichkeit die Standardwahrscheinlichkeitsstufe aus, die allen Ergebnissen zugewiesen werden soll, die mit diesem benutzerdefinierten infoType übereinstimmen. Mit Hotword-Regeln können Sie die Wahrscheinlichkeit einzelner Ergebnisse weiter optimieren.
Wenn Sie keinen Standardwert angeben, wird das Standardwahrscheinlichkeitsniveau auf
VERY_LIKELY
festgelegt. Weitere Informationen finden Sie unter Wahrscheinlichkeit der Übereinstimmung.Wählen Sie unter Empfindlichkeit die Empfindlichkeitsstufe aus, die allen Ergebnissen zugewiesen werden soll, die diesem benutzerdefinierten infoType entsprechen. Wenn Sie keinen Wert angeben, werden die Sensitivitätsstufen dieser Ergebnisse auf
HIGH
gesetzt.Sensibilitätsbewertungen werden in Datenprofilen verwendet. Beim Erstellen von Datenprofilen verwendet der Schutz sensibler Daten die Sensibilitätsbewertungen der infoTypes, um das Sensibilitätsniveau zu berechnen.
Wählen Sie unter Gespeicherter infoType-Name den gespeicherten infoType aus, auf dem der neue benutzerdefinierte infoType basieren soll.
Klicken Sie auf Fertig, um den Bereich Benutzerdefinierten infoType hinzufügen zu schließen.
Optional: Bearbeiten Sie auf dem Tab Vordefiniert die Auswahl der vordefinierten infoTypes.
Klicken Sie auf Fertig, um den Bereich InfoTypes zu schließen.
Der benutzerdefinierte infoType wird der Liste der infoTypes hinzugefügt, nach denen der Schutz sensibler Daten sucht. Diese Auswahl ist jedoch erst endgültig, wenn Sie den Job, den Job-Trigger, die Vorlage oder die Scankonfiguration speichern.
Klicken Sie auf Speichern, wenn Sie mit dem Erstellen oder Bearbeiten der Konfiguration fertig sind.
C#
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
PHP
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Sensitive Data Protection zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
REST
Wenn der folgende JSON-Code an die Methode content.inspect
gesendet wird, scannt er den angegebenen Text mit dem angegebenen gespeicherten infoType-Detektor. Der Parameter infoType
ist erforderlich, da alle benutzerdefinierten infoTypes einen Namen haben müssen, der nicht mit integrierten infoTypes oder anderen benutzerdefinierten infoTypes in Konflikt steht. Der Parameter storedType
enthält den vollständigen Ressourcenpfad des gespeicherten infoType.
JSON-Eingabe
POST https://dlp.googleapis.com/v2/projects/PROJECT_ID/content:inspect
{
"inspectConfig":{
"customInfoTypes":[
{
"infoType":{
"name":"GITHUB_LOGINS"
},
"storedType":{
"name":"projects/PROJECT_ID/storedInfoTypes/github-logins"
}
}
]
},
"item":{
"value":"The commit was made by githubuser."
}
}
Fehler beheben
Wenn beim Versuch, einen gespeicherten infoType aus einer in Cloud Storage gespeicherten Begriffsliste zu erstellen, ein Fehler auftritt, kann das folgende Ursachen haben:
- Sie haben eine Obergrenze für gespeicherte infoTypes erreicht. Je nach Problem gibt es verschiedene Umgehungen:
- Wenn Sie die Obergrenze für eine einzelne Eingabedatei in Cloud Storage (200 MB) erreichen, können Sie versuchen, die Datei in mehrere Dateien aufzuteilen. Sie können mehrere Dateien verwenden, um ein einzelnes benutzerdefiniertes Wörterbuch zu erstellen, solange die kombinierte Größe aller Dateien 1 GB nicht überschreitet.
- Für BigQuery gelten nicht dieselben Einschränkungen wie für Cloud Storage. Sie können die Begriffe in eine BigQuery-Tabelle verschieben. Die maximale Größe einer benutzerdefinierten Wörterbuchspalte in BigQuery beträgt 1 GB und die maximale Anzahl der Zeilen 5.000.000.
- Wenn Ihre Begriffslistendatei alle anwendbaren Limits für Listen von Quellbegriffen überschreitet, müssen Sie die Begriffslistendatei in mehrere Dateien aufteilen und für jede Datei ein Wörterbuch erstellen. Erstellen Sie dann für jedes Wörterbuch einen separaten Scanjob.
- Einer oder mehrere Ihrer Begriffe enthalten nicht mindestens einen Buchstaben oder eine Ziffer. Sensitive Data Protection kann nicht nach Begriffen suchen, die ausschließlich aus Leerzeichen oder Symbolen bestehen. Mindestens ein Buchstabe oder eine Ziffer muss enthalten sein. Sehen Sie sich Ihre Begriffsliste an, prüfen Sie, ob solche Begriffe enthalten sind, und korrigieren oder löschen Sie sie dann.
- Ihre Begriffsliste enthält eine Wortgruppe mit zu vielen "Komponenten". Eine Komponente in diesem Kontext ist eine fortlaufende Sequenz, die nur Buchstaben, nur Ziffern oder nur Nicht-Buchstaben- und Nicht-Ziffern-Zeichen wie Leerzeichen oder Symbole enthält. Sehen Sie sich Ihre Begriffsliste an, prüfen Sie, ob solche Begriffe enthalten sind, und korrigieren oder löschen Sie sie dann.
- Der Dienst-Agent für den Schutz sensibler Daten hat keinen Zugriff auf die Wörterbuchquelldaten oder auf den Cloud Storage-Bucket zum Speichern von Wörterbuchdateien. Zum Beheben dieses Problems erteilen Sie dem Kundenservicemitarbeiter für den Schutz sensibler Daten die Rolle „Storage Admin“ (
roles/storage.admin
) oder die Rollen „BigQuery Data Owner“ (roles/bigquery.dataOwner
) und „BigQuery Job User“ (roles/bigquery.jobUser
).
API-Übersicht
Wenn Sie einen großen benutzerdefinierten Wörterbuchdetektor erstellen, ist das Erstellen eines gespeicherten infoType erforderlich.
Ein gespeicherter infoType wird im Schutz sensibler Daten durch das StoredInfoType
-Objekt dargestellt. Es besteht aus den folgenden zugehörigen Objekten:
StoredInfoTypeVersion
enthält das Erstellungsdatum und die Erstellungszeit sowie die letzten fünf Fehlermeldungen, die bei der Erstellung der aktuellen Version aufgetreten sind.StoredInfoTypeConfig
enthält die Konfiguration des gespeicherten infoType, einschließlich Name und Beschreibung. Bei einem großen benutzerdefinierten Wörterbuch musstype
eineLargeCustomDictionaryConfig
sein.LargeCustomDictionaryConfig
gibt Folgendes an:- Den Speicherort Ihrer Wortgruppenliste in Cloud Storage oder BigQuery.
- Den Speicherort der generierten Wörterbuchdateien in Cloud Storage.
StoredInfoTypeState
enthält den Status der aktuellen Version und alle ausstehenden Versionen des gespeicherten infoType. Statusinformationen geben Aufschluss darüber, ob der gespeicherte infoType neu erstellt wird, einsatzbereit oder ungültig ist.
Details zum Wörterbuchabgleich
Im Folgenden finden Sie Hinweise dazu, wie der Schutz sensibler Daten den Abgleich mit Wörtern und Wortgruppen im Wörterbuch vornimmt. Diese Punkte gelten sowohl für reguläre als auch für große benutzerdefinierte Wörterbücher:
- Bei Wörtern in Wörterbüchern wird nicht zwischen Groß- und Kleinschreibung unterschieden. Wenn Ihr Wörterbuch
Abby
enthält, wird es aufabby
,ABBY
,Abby
usw. abgestimmt. - Alle Zeichen, ob in Wörterbüchern oder zu scannenden Inhalten, die nicht zu den in der Unicode Basic Multilingual Plane enthaltenen Buchstaben, Ziffern und anderen alphabetischen Zeichen zählen, werden beim Scannen auf Übereinstimmungen wie Leerzeichen behandelt. Wenn Ihr Wörterbuch nach
Abby Abernathy
sucht, findet esabby abernathy
,Abby, Abernathy
,Abby (ABERNATHY)
und so weiter als Übereinstimmungen. - Die Zeichen in direkter Nachbarschaft zu einer Übereinstimmung müssen von einem anderen Typ sein (Buchstaben oder Ziffern) als die benachbarten Zeichen innerhalb des Worts. Wenn Ihr Wörterbuch nach
Abi
sucht, werden die ersten drei Zeichen vonAbi904
, aber nicht vonAbigail
als Übereinstimmung erkannt. - Wörter in Wörterbüchern, die Zeichen aus der Supplementary Multilingual Plane des Unicode-Standards enthalten, können zu unerwarteten Ergebnissen führen. Beispiele für solche Zeichen sind Emojis, wissenschaftliche Symbole und historische Schriften.
Buchstaben, Ziffern und andere alphabetische Zeichen sind so definiert:
- Buchstaben: Zeichen mit den allgemeinen Kategorien
Lu
,Ll
,Lt
,Lm
oderLo
in der Unicode-Spezifikation - Ziffern: Zeichen mit der allgemeinen Kategorie
Nd
in der Unicode-Spezifikation - Andere alphabetische Zeichen: Zeichen mit der allgemeinen Kategorie
Nl
in der Unicode-Spezifikation oder mit der beitragenden EigenschaftOther_Alphabetic
gemäß Unicode-Standard
Zum Erstellen, Bearbeiten oder Löschen eines gespeicherten infoType verwenden Sie die folgenden Methoden:
storedInfoTypes.create
: erstellt einen neuen gespeicherten infoType mit der von Ihnen angegebenenStoredInfoTypeConfig
.storedInfoTypes.patch
: erstellt den gespeicherten infoType mit einer von Ihnen angegebenen neuenStoredInfoTypeConfig
neu. Wenn keine angegeben wird, wird mit dieser Methode eine neue Version des gespeicherten infoType mit der vorhandenenStoredInfoTypeConfig
erstellt.storedInfoTypes.get
: ruft dieStoredInfoTypeConfig
und alle ausstehenden Versionen des angegebenen gespeicherten infoType ab.storedInfoTypes.list
: listet alle aktuell gespeicherten infoTypes auf.storedInfoTypes.delete
: löscht den angegebenen gespeicherten infoType.