Cloud Data Loss Prevention (Cloud DLP) ist jetzt Teil des Schutzes sensibler Daten. Der API-Name bleibt unverändert: Cloud Data Loss Prevention API (DLP API). Informationen zu den Diensten, die den Datenschutz enthalten, finden Sie in dieser Übersicht.

Google Cloud-Speicher und -Datenbanken auf sensible Daten prüfen

Die korrekte Verwaltung sensibler Daten, die in einem Speicher-Repository gespeichert sind, beginnt mit der Speicherklassifizierung: Sie identifizieren, wo sich Ihre sensiblen Daten im Repository befinden, um welche Art von sensiblen Daten es sich handelt und wie sie genutzt werden. Dieses Wissen kann Ihnen helfen, Berechtigungen für die Zugriffssteuerung und Freigabe richtig festzulegen, und in einen ständigen Überwachungsplan einfließen.

Mit dem Schutz sensibler Daten können sensible Daten, die an einem Cloud Storage-Speicherort, in einer Datastore-Art oder in einer BigQuery-Tabelle gespeichert sind, erkannt und klassifiziert werden. Beim Scannen von Dateien an Cloud Storage-Speicherorten unterstützt der Schutz sensibler Daten das Scannen von Binär-, Text-, Bild-, Microsoft Word-, Microsoft Excel-, Microsoft PowerPoint-, PDF- und Apache Avro-Dateien. Nicht erkannte Dateitypen werden als Binärdateien gescannt. Weitere Informationen zu unterstützten Dateitypen finden Sie unter Unterstützte Dateitypen.

Wenn Sie Speicher und Datenbanken auf sensible Daten prüfen möchten, geben Sie den Speicherort der Daten und die Art der sensiblen Daten an, nach denen der Schutz sensibler Daten suchen soll. Der Schutz sensibler Daten initiiert einen Job, der die Daten am angegebenen Speicherort prüft und dann Details zu den im Inhalt gefundenen infoTypes, Wahrscheinlichkeitswerten usw. zur Verfügung stellt.

Sie können die Prüfung von Speicher und Datenbanken mithilfe des Schutzes sensibler Daten in der Google Cloud Console, über die RESTful DLP API oder programmatisch mithilfe einer Clientbibliothek für den Schutz sensibler Daten in einer von mehreren Sprachen einrichten.

Dieses Thema umfasst:

Best Practices zum Einrichten von Scans von Google Cloud Storage-Repositories und -Datenbanken.
Anleitung zum Einrichten eines Inspektionsscans mit dem Schutz sensibler Daten in der Google Cloud Console und (optional) zum Planen regelmäßig wiederkehrender Inspektionsscans.
JSON- und Codebeispiele für jeden Google Cloud Storage-Repository-Typ: (Cloud Storage, Firestore im Datastore-Modus (Datastore) und BigQuery).
Eine detaillierte Übersicht über die Konfigurationsoptionen für Scanjobs.
Eine Anleitung zum Abrufen von Scanergebnissen und zum Verwalten der Scanjobs, die bei jeder erfolgreichen API-Anfrage erstellt werden.

Best Practices

Zu scannende Assets identifizieren und priorisieren

Es ist wichtig, dass Sie Ihre Assets evaluieren und angeben, welche davon die höchste Priorität für Scanvorgänge haben. Wahrscheinlich wird der Rückstand der zu klassifizierenden Daten anfangs groß sein und keine Möglichkeit bestehen, alle Daten sofort zu scannen. Wählen Sie also zuerst Daten aus, die das höchste Risiko bergen. Dazu gehören beispielsweise Daten, die häufig abgerufen oder allgemein zugänglich bzw. unbekannt sind.

Sicherstellen, dass der Schutz sensibler Daten auf Ihre Daten zugreifen kann

Der Schutz sensibler Daten muss auf die zu scannenden Daten zugreifen können. Das Dienstkonto für den Schutz sensibler Daten muss berechtigt sein, Ihre Ressourcen zu lesen.

Umfang der ersten Scans beschränken

Die besten Ergebnisse erzielen Sie, wenn Sie den Umfang der ersten Jobs beschränken und nicht alle Daten scannen. Beginnen Sie mit einer einzigen Tabelle, einem einzigen Bucket oder einigen Dateien und verwenden Sie die Probenahme. Wenn Sie den Umfang der ersten Scans einschränken, können Sie besser bestimmen, welche Detektoren aktiviert werden sollen und welche Ausschlussregeln erforderlich sind, um falsch positive Ergebnisse zu reduzieren und aussagekräftigere Ergebnisse zu erhalten. Vermeiden Sie es, alle infoTypes zu aktivieren, wenn Sie nicht alle benötigen, da falsch positive oder unbrauchbare Ergebnisse die Risikoeinschätzung erschweren. Obwohl infoTypes wie DATE, TIME, DOMAIN_NAME und URL in bestimmten Szenarien nützlich sind, ergeben sie in einem breiten Spektrum von Ergebnissen Übereinstimmungen, sodass deren Aktivierung für große Datenscans unter Umständen nicht sinnvoll ist.

Achten Sie beim Sampling einer strukturierten Datei, z. B. einer CSV-, TSV- oder Avro-Datei, darauf, dass die Stichprobengröße groß genug ist, um den vollständigen Header der Datei und eine Datenzeile abzudecken. Weitere Informationen finden Sie unter Strukturierte Dateien im strukturierten Parsingmodus scannen.

Scans planen

Verwenden Sie Job-Trigger für den Schutz sensibler Daten, um täglich, wöchentlich oder vierteljährlich automatisch Scans auszuführen und Ergebnisse zu generieren. Sie können diese Scans auch so konfigurieren, dass nur Daten geprüft werden, die sich seit dem letzten Scan geändert haben. Dies kann Zeit sparen und Kosten senken. Wenn Sie Scans regelmäßig ausführen, lassen sich Trends oder Anomalien in den Scanergebnissen leichter erkennen.

Joblatenz

Für Jobs und Job-Trigger werden keine Service Level Objectives (SLO) garantiert. Die Latenz wird von mehreren Faktoren beeinflusst, darunter die Menge der zu scannenden Daten, das gescannte Speicher-Repository, der Typ und die Anzahl der infoTypes, nach denen Sie scannen, die Region, in der der Job verarbeitet wird, und die in dieser Region verfügbaren Rechenressourcen. Daher kann die Latenz von Inspektionsjobs nicht im Voraus bestimmt werden.

Versuchen Sie Folgendes, um die Joblatenz zu reduzieren:

Wenn Stichproben für den Job oder Job-Trigger verfügbar ist, aktivieren Sie sie.
Vermeiden Sie die Aktivierung von infoTypes, die Sie nicht benötigen. Obwohl Folgendes in bestimmten Szenarien nützlich ist, können diese infoTypes Anfragen wesentlich langsamer ausführen als Anfragen, die sie nicht enthalten:
- PERSON_NAME
- FEMALE_NAME
- MALE_NAME
- FIRST_NAME
- LAST_NAME
- DATE_OF_BIRTH
- LOCATION
- STREET_ADDRESS
- ORGANIZATION_NAME
Geben Sie infoTypes immer explizit an. Verwenden Sie keine leere infoTypes-Liste.
Verwenden Sie nach Möglichkeit eine andere Verarbeitungsregion.

Wenn Sie nach dem Ausführen dieser Techniken immer noch Latenzprobleme mit Jobs haben, sollten Sie anstelle von Jobs content.inspect- oder content.deidentify-Anfragen verwenden. Diese Methoden sind im Service Level Agreement (SLA) abgedeckt. Weitere Informationen finden Sie unter Service Level Agreement (SLA) für sensible Daten.

Hinweise

Für die Anleitung in diesem Thema wird Folgendes vorausgesetzt:

Sie haben die Abrechnung aktiviert.

Weitere Informationen zum Aktivieren der Abrechnung
Sie haben den Schutz sensibler Daten aktiviert.

Schutz sensibler Daten aktivieren

Die Speicherklassifizierung erfordert den folgenden OAuth-Bereich: https://www.googleapis.com/auth/cloud-platform. Weitere Informationen finden Sie unter Bei der DLP API authentifizieren.

Cloud Storage-Speicherort prüfen

Sie können eine Prüfung des Schutzes sensibler Daten an einem Cloud Storage-Standort mit der Google Cloud Console, der DLP API über REST- oder RPC-Anfragen oder programmatisch in mehreren Sprachen mithilfe einer Clientbibliothek einrichten. Informationen zu den Parametern, die in den folgenden JSON- und Codebeispielen enthalten sind, finden Sie weiter unten in diesem Thema unter Speicherinspektion konfigurieren.

Beim Schutz sensibler Daten werden die Typen der zu scannenden Dateien und die anzuwendenden Scanmodi anhand von Dateierweiterungen und Medientypen (MIME) identifiziert. Der Schutz sensibler Daten scannt beispielsweise eine .txt-Datei im Nur-Text-Modus, auch wenn die Datei als CSV-Datei strukturiert ist, die normalerweise im strukturierten Parsing-Modus gescannt wird.

So richten Sie einen Scanjob für einen Cloud Storage-Bucket mit dem Schutz sensibler Daten ein:

Console

In diesem Abschnitt wird beschrieben, wie Sie einen Cloud Storage-Bucket oder -Ordner untersuchen. Wenn Sie zum Schutz sensibler Daten auch eine de-identifizierte Kopie Ihrer Daten erstellen möchten, lesen Sie die Informationen unter In Cloud Storage gespeicherte sensible Daten mit der Google Cloud Console de-identifizieren.

Rufen Sie im Abschnitt zum Schutz sensibler Daten in der Google Cloud Console die Seite Job oder Job-Trigger erstellen auf.

Zur Seite „Job oder Job-Trigger erstellen“

Hinweis: Sie können auch direkt über den Cloud Storage-Browser einen Scan zum Schutz sensibler Daten starten. Klicken Sie in der Spalte ganz rechts bei dem Bucket, den Sie scannen möchten, auf das Dreipunkt-Menü und dann auf Mit Schutz sensibler Daten scannen. Die Seite zum Erstellen von Jobs für den Schutz sensibler Daten wird in einem separaten Tab geöffnet.
Geben Sie die Informationen zum Job für den Schutz sensibler Daten ein und klicken Sie zum Ausführen der einzelnen Schritte auf Weiter:
- Geben Sie für Schritt 1: Eingabedaten auswählen einen Namen für den Job im Feld Name ein. Wählen Sie unter Speicherort im Menü Speichertyp die Option "Cloud Storage" aus und geben Sie dann den Speicherort der zu scannenden Daten ein. Der Bereich Probenahme ist zur Ausführung eines Beispielscans für Ihre Daten vorkonfiguriert. Sie können das Feld Prozentsatz der innerhalb des Buckets gescannten Objekte anpassen, um bei großen Datenmengen Ressourcen zu sparen. Weitere Informationen finden Sie unter Eingabedaten auswählen.
- (Optional) Für Schritt 2: Erkennung konfigurieren können Sie festlegen, nach welchen Datentypen (infoTypes) gesucht werden soll. Sie haben die Möglichkeit, einen vordefinierten infoType aus der Liste oder eine Vorlage (sofern vorhanden) auszuwählen. Weitere Informationen finden Sie unter Erkennung konfigurieren.
- (Optional) Achten Sie darauf, dass für Schritt 3: Aktionen hinzufügen die Option Per E-Mail benachrichtigen aktiviert ist.
  
  Aktivieren Sie In BigQuery speichern, um die Ergebnisse zum Schutz sensibler Daten in einer BigQuery-Tabelle zu veröffentlichen. Machen Sie folgende Angaben:
  - Geben Sie als Projekt-ID die Projekt-ID ein, unter der Ihre Ergebnisse gespeichert werden.
  - Geben Sie als Dataset-ID den Namen des Datasets ein, in dem Ihre Ergebnisse gespeichert werden.
  - (Optional) Geben Sie als Tabellen-ID den Namen der Tabelle ein, in der Ihre Ergebnisse gespeichert werden. Wenn Sie keine Tabellen-ID angeben, wird neuen Tabellen ein Standardname etwa in der Form dlp_googleapis_[DATE]_1234567890 zugewiesen, wobei [DATE] für das Datum steht, an dem der Scanvorgang ausgeführt wird. Wenn Sie eine vorhandene Tabelle angeben, werden die Ergebnisse daran angehängt.
  - (Optional) Aktivieren Sie Anführungszeichen einschließen, um Strings einzuschließen, die einem infoType-Detektor entsprechen. Anführungszeichen sind möglicherweise vertraulich, sodass sie beim Schutz sensibler Daten standardmäßig nicht in Ergebnisse aufgenommen werden.
  Wenn Daten in eine BigQuery-Tabelle geschrieben werden, werden die Abrechnungs- und Kontingentnutzung auf das Projekt angewendet, das die Zieltabelle enthält.
  
  Wenn Sie eine de-identifizierte Kopie Ihrer Daten erstellen möchten, aktivieren Sie die Option De-identifizierte Kopie erstellen. Weitere Informationen finden Sie unter In Cloud Storage gespeicherte sensible Daten mithilfe der Google Cloud Console de-identifizieren.
  
  Sie können Ergebnisse auch in Pub/Sub, Security Command Center, Data Catalog und Cloud Monitoring speichern. Weitere Informationen finden Sie unter Aktionen hinzufügen.
- (Optional) Übernehmen Sie für Schritt 4: Zeitplan die Menüoption Keiner, wenn der Scan nur einmal ausgeführt werden soll. Klicken Sie auf Trigger zum Ausführen des Jobs nach einem regelmäßigen Zeitplan erstellen, um die regelmäßige Ausführung von Scans zu planen. Weitere Informationen finden Sie unter Zeitplan.
Klicken Sie auf Erstellen.
Nachdem der Job zum Schutz sensibler Daten abgeschlossen ist, werden Sie zur Seite mit den Jobdetails weitergeleitet und per E-Mail benachrichtigt. Sie können sich die Ergebnisse der Inspektion auf der Seite mit den Jobdetails ansehen.
(Optional) Wenn Sie Ergebnisse zum Schutz sensibler Daten in BigQuery veröffentlichen möchten, klicken Sie auf der Seite Jobdetails auf Ergebnisse in BigQuery ansehen, um die Tabelle in der BigQuery-Web-UI zu öffnen. Anschließend können Sie die Tabelle abfragen und Ihre Ergebnisse analysieren. Weitere Informationen zum Abfragen der Ergebnisse in BigQuery finden Sie unter Ergebnisse zum Schutz sensibler Daten in BigQuery abfragen.

Protokoll

Es folgt ein JSON-Beispiel, das in einer POST-Anfrage an den angegebenen REST-Endpunkt zum Schutz sensibler Daten gesendet werden kann. In diesem JSON-Beispiel wird veranschaulicht, wie die DLP API zum Prüfen von Cloud Storage-Buckets verwendet wird. Informationen zu den Parametern, die in der Anfrage enthalten sind, finden Sie weiter unten im Abschnitt Speicherinspektion konfigurieren.

Sie können dies in APIs Explorer auf der Referenzseite für content.inspect schnell ausprobieren:

Zum APIs Explorer

Beachten Sie, dass bei erfolgreicher Ausführung einer Anfrage ein neuer Scanjob erstellt wird, auch in APIs Explorer. Informationen zum Steuern von Scanjobs finden Sie weiter unten in diesem Thema unter Inspektionsergebnisse abrufen. Allgemeine Informationen zur Verwendung von JSON zum Senden von Anfragen an die DLP API finden Sie im JSON-Schnellstart.

JSON-Eingabe:

POST https://dlp.googleapis.com/v2/projects/[PROJECT-ID]/dlpJobs?key={YOUR_API_KEY}

{
  "inspectJob":{
    "storageConfig":{
      "cloudStorageOptions":{
        "fileSet":{
          "url":"gs://[BUCKET-NAME]/*"
        },
        "bytesLimitPerFile":"1073741824"
      },
      "timespanConfig":{
        "startTime":"2017-11-13T12:34:29.965633345Z",
        "endTime":"2018-01-05T04:45:04.240912125Z"
      }
    },
    "inspectConfig":{
      "infoTypes":[
        {
          "name":"PHONE_NUMBER"
        }
      ],
      "excludeInfoTypes":false,
      "includeQuote":true,
      "minLikelihood":"LIKELY"
    },
    "actions":[
      {
        "saveFindings":{
          "outputConfig":{
            "table":{
              "projectId":"[PROJECT-ID]",
              "datasetId":"[DATASET-ID]"
            }
          }
        }
      }
    ]
  }
}

JSON-Ausgabe:

{
  "name":"projects/[PROJECT-ID]/dlpJobs/[JOB-ID]",
  "type":"INSPECT_JOB",
  "state":"PENDING",
  "inspectDetails":{
    "requestedOptions":{
      "snapshotInspectTemplate":{

      },
      "jobConfig":{
        "storageConfig":{
          "cloudStorageOptions":{
            "fileSet":{
              "url":"gs://[BUCKET-NAME]/*"
            },
            "bytesLimitPerFile":"1073741824"
          },
          "timespanConfig":{
            "startTime":"2017-11-13T12:34:29.965633345Z",
            "endTime":"2018-01-05T04:45:04.240912125Z"
          }
        },
        "inspectConfig":{
          "infoTypes":[
            {
              "name":"PHONE_NUMBER"
            }
          ],
          "minLikelihood":"LIKELY",
          "limits":{

          },
          "includeQuote":true
        },
        "actions":[
          {
            "saveFindings":{
              "outputConfig":{
                "table":{
                  "projectId":"[PROJECT-ID]",
                  "datasetId":"[DATASET-ID]",
                  "tableId":"[NEW-TABLE-ID]"
                }
              }
            }
          }
        ]
      }
    }
  },
  "createTime":"2018-11-07T18:01:14.225Z"
}

Java

Informationen zum Installieren und Verwenden der Clientbibliothek für den Schutz sensibler Daten finden Sie unter Clientbibliotheken für den Schutz sensibler Daten.

Richten Sie Standardanmeldedaten für Anwendungen ein, um sich beim Schutz sensibler Daten zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

Google Cloud-Speicher und -Datenbanken auf sensible Daten prüfen

Best Practices

Zu scannende Assets identifizieren und priorisieren

Sicherstellen, dass der Schutz sensibler Daten auf Ihre Daten zugreifen kann

Umfang der ersten Scans beschränken

Scans planen

Joblatenz

Hinweise

Cloud Storage-Speicherort prüfen

Console

Protokoll

Java

Node.js

Python

Go

PHP

C#

Datastore-Art prüfen

Console

Protokoll

Java

Node.js

Python

Go

PHP

C#

Eine BigQuery-Tabelle untersuchen

Console

Protokoll

Java

Node.js

Python

Go

PHP

C#

Speicherinspektion konfigurieren

Umfang des zu prüfenden Inhalts beschränken

Cloud Storage-Scans beschränken

C#

Go

Java

Node.js

PHP

Python

REST

BigQuery-Scans beschränken

Go

Java

Node.js

PHP

Python

C#

REST

Inspektionsergebnisse abrufen

Nächste Schritte