Cloud DLP-Scanergebnisse an Data Catalog senden

In diesem Leitfaden wird beschrieben, wie Sie mit Cloud Data Loss Prevention bestimmte Google Cloud-Ressourcen scannen und Ergebnisse an Data Catalog senden.

Data Catalog ist ein skalierbarer Dienst zur Metadatenverwaltung, mit dem Sie alle Ihre Daten in Google Cloud schnell finden, verwalten und verstehen können.

Cloud DLP ist nativ in Data Catalog enthalten. Wenn Sie mit einer Cloud DLP-Aktion Ihre BigQuery-Tabellen nach sensiblen Daten scannen, können Ergebnisse direkt in Form einer Tag-Vorlage an Data Catalog gesendet werden.

Die Schritte in diesem Leitfaden führen zu folgenden Ergebnissen:

  • Sie aktivieren Data Catalog und Cloud DLP.
  • Sie richten Cloud DLP zum Scannen einer BigQuery-Tabelle ein.
  • Sie konfigurieren einen Cloud DLP-Scan, um Scanergebnisse an Data Catalog zu senden.

Weitere Informationen zu Data Catalog finden Sie in der Data Catalog-Dokumentation.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

  • Cloud DLP
  • BigQuery

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

Bevor Sie Cloud DLP-Scanergebnisse an Data Catalog senden können, müssen Sie Folgendes tun:

  • Schritt 1: Abrechnung einrichten
  • Schritt 2: Neues Projekt erstellen und neue BigQuery-Tabelle füllen. (Optional)
  • Schritt 3: Data Catalog aktivieren.
  • Schritt 4: Cloud DLP aktivieren

In den folgenden Unterabschnitten wird jeder Schritt detailliert beschrieben.

Schritt 1: Abrechnung einrichten

Sie müssen zuerst ein Rechnungskonto einrichten, falls Sie noch keines haben.

Weitere Informationen zum Aktivieren der Abrechnung

Schritt 2: Neues Projekt erstellen und neue BigQuery-Tabelle füllen (optional)

Wenn Sie dieses Feature für Produktionszwecke einrichten oder bereits eine BigQuery-Tabelle haben, die Sie scannen möchten, öffnen Sie das Google Cloud-Projekt, das die Tabelle enthält. Fahren Sie dann mit Schritt 3 fort.

Wenn Sie dieses Feature ausprobieren und einen "Dummy"- oder Testdatensatz scannen möchten, erstellen Sie ein neues Projekt. Für diesen Schritt benötigen Sie die IAM-Rolle Projektersteller. Weitere Informationen zu IAM-Rollen

  1. Rufen Sie in der Google Cloud Console die Seite Neues Projekt auf.

    Neues Projekt

  2. Wählen Sie in der Drop-down-Liste Rechnungskonto das Rechnungskonto aus, dem das Projekt in Rechnung gestellt werden soll.
  3. Wählen Sie in der Drop-down-Liste Organisation die Organisation aus, in der Sie das Projekt erstellen möchten.
  4. Wählen Sie in der Drop-down-Liste Speicherort die Organisation oder den Ordner aus, in dem Sie das Projekt erstellen möchten.
  5. Klicken Sie auf Erstellen, um das Projekt zu erstellen.

Laden Sie anschließend die Beispieldaten herunter und speichern Sie diese:

  1. Öffnen Sie das Repository für Anleitungen zu Cloud Functions auf GitHub.
  2. Wählen Sie eine der CSV-Dateien mit Beispieldaten aus und laden Sie die Datei herunter.
  3. Rufen Sie als Nächstes in der Google Cloud Console BigQuery auf.
  4. Wählen Sie Ihr Projekt aus.
  5. Klicken Sie auf Dataset erstellen.
  6. Klicken Sie auf Tabelle erstellen.
  7. Klicken Sie auf Hochladen und wählen Sie die Datei aus, die Sie hochladen möchten.
  8. Geben Sie der Tabelle einen Namen und klicken Sie dann auf Tabelle erstellen.

Schritt 3: Data Catalog aktivieren

Aktivieren Sie als Nächstes Data Catalog für das Projekt, das die BigQuery-Tabelle enthält, die Sie mit Cloud DLP scannen möchten.

So aktivieren Sie Data Catalog über die Google Cloud Console:

  1. Registrieren Sie Ihre Anwendung für Data Catalog.

    Anwendung für Data Catalog registrieren

  2. Wählen Sie auf der Registrierungsseite in der Drop-down-Liste Projekt erstellen das Projekt aus, das Sie mit Data Catalog verwenden möchten.
  3. Klicken Sie nach der Auswahl des Projekts auf Weiter.

Data Catalog ist jetzt für Ihr Projekt aktiviert.

Schritt 4: Cloud DLP aktivieren

Aktivieren Sie Cloud DLP für das Projekt, für das Sie Data Catalog aktiviert haben.

So aktivieren Sie Cloud DLP über die Google Cloud Console:

  1. Registrieren Sie Ihre Anwendung für Cloud DLP.

    Anwendung für Cloud DLP registrieren

  2. Wählen Sie auf der Registrierungsseite in der Drop-down-Liste Projekt erstellen das Projekt aus, das Sie im vorherigen Schritt ausgewählt haben.
  3. Klicken Sie nach der Auswahl des Projekts auf Weiter.

Cloud DLP ist jetzt für Ihr Projekt aktiviert.

Cloud DLP-Inspektionsscan konfigurieren und ausführen

Sie können einen Cloud DLP-Inspektionsscan entweder über die Google Cloud Console oder die DLP API konfigurieren und ausführen.

Data Catalog-Tag-Vorlagen werden im selben Projekt und in derselben Region wie die BigQuery-Tabelle gespeichert. Wenn Sie eine Tabelle aus einem anderen Projekt untersuchen, müssen Sie dem Cloud DLP-Dienst-Agent in dem Projekt, in dem die BigQuery-Tabelle vorhanden ist, die Data Catalog-Tagvorlageninhaber-Rolle (roles/datacatalog.tagTemplateOwner) zuweisen.

Google Cloud Console

So richten Sie einen Scanjob für eine BigQuery-Tabelle mithilfe von Cloud DLP ein:

  1. Öffnen Sie Cloud DLP in der Google Cloud Console.

    Zu Cloud DLP

  2. Wählen Sie im Menü Erstellen die Option Job oder -Trigger aus.

    Grafik: Screenshot der Option "Job oder Job-Trigger" im Menü "Erstellen"

  3. Geben Sie die Informationen zum Cloud DLP-Job ein und klicken Sie auf Weiter, um die einzelnen Schritte abzuschließen:

    • Geben Sie für Schritt 1: Eingabedaten auswählen einen Namen für den Job im Feld Name ein. Wählen Sie unter Speicherort im Menü Speichertyp die Option BigQuery aus und geben Sie die Informationen für die zu scannende Tabelle ein. Der Bereich Probenahme ist zur Ausführung eines Beispielscans für Ihre Daten vorkonfiguriert. Sie können die Felder Zeilen beschränken durch und Maximale Zeilenanzahl anpassen, um bei großen Datenmengen Ressourcen zu sparen. Weitere Informationen finden Sie unter Eingabedaten auswählen.

    • (Optional) In Schritt 2: Erkennung konfigurieren können Sie festlegen, nach welchen Datentypen (infoTypes) gesucht werden soll. Lassen Sie für diese Anleitung die Standard-infoTypes ausgewählt. Weitere Informationen finden Sie unter Erkennung konfigurieren.

    • Aktivieren Sie für Schritt 3: Aktionen hinzufügen die Option In Data Catalog speichern.

    • (Optional) Übernehmen Sie für Schritt 4: Zeitplan bei dieser Anleitung die Menüoption Keiner, wenn der Scan nur einmal ausgeführt werden soll. Weitere Informationen zum Planen wiederkehrender Scans finden Sie unter Planen.

  4. Klicken Sie auf Erstellen. Der Job wird sofort ausgeführt.

DLP API

In diesem Abschnitt konfigurieren Sie den Cloud DLP-Scanjob und führen ihn aus.

Der hier konfigurierte Inspektionsjob weist Cloud DLP an, entweder die in Schritt 2 beschriebenen BigQuery-Beispieldaten oder Ihre eigenen BigQuery-Daten zu scannen. In der von Ihnen angegebenen Jobkonfiguration weisen Sie Cloud DLP außerdem an, die Suchergebnisse in Cloud Catalog zu speichern.

Schritt 1: Projektkennung notieren

  1. Öffnen Sie die Google Cloud Console.

    Weiter zur Google Cloud Console

  2. Klicken Sie auf Auswählen.

  3. Wählen Sie in der Drop-down-Liste Auswählen aus die Organisation aus, für die Sie Data Catalog aktiviert haben.

  4. Kopieren Sie unter ID die Projekt-ID des Projekts, das die zu scannenden Daten enthält. Dies ist das Projekt, das im Schritt Speicher-Repositories festlegen weiter oben auf dieser Seite beschrieben wurde.

  5. Klicken Sie unter Name auf das Projekt, um es auszuwählen.

Schritt 2: APIs Explorer öffnen und den Job konfigurieren

  1. Rufen Sie APIs Explorer auf der Referenzseite für die Methode dlpJobs.create auf. Damit diese Anleitung verfügbar bleibt, klicken Sie mit der rechten Maustaste auf den folgenden Link und öffnen Sie ihn in einem neuen Tab oder Fenster:

    APIs Explorer öffnen

  2. Geben Sie im Feld parent Folgendes ein, wobei project-id die Projekt-ID ist, die Sie sich im vorherigen Schritt notiert haben:

    projects/project-id

    Kopieren Sie als Nächstes den folgenden JSON-Code. Wählen Sie den Inhalt des Felds Anfragetext im APIs Explorer aus und fügen Sie den JSON-Code ein, um den Inhalt zu ersetzen. Ersetzen Sie die Platzhalter project-id, bigquery-dataset-name und bigquery-table-name jeweils durch die tatsächliche Projekt-ID sowie die Namen der BigQuery-Datasets und -Tabellen.

    {
      "inspectJob":
      {
        "storageConfig":
        {
          "bigQueryOptions":
          {
            "tableReference":
            {
              "projectId": "project-id",
              "datasetId": "bigquery-dataset-name",
              "tableId": "bigquery-table-name"
            }
          }
        },
        "inspectConfig":
        {
          "infoTypes":
          [
            {
              "name": "EMAIL_ADDRESS"
            },
            {
              "name": "PERSON_NAME"
            },
            {
              "name": "US_SOCIAL_SECURITY_NUMBER"
            },
            {
              "name": "PHONE_NUMBER"
            }
          ],
          "includeQuote": true,
          "minLikelihood": "UNLIKELY",
          "limits":
          {
            "maxFindingsPerRequest": 100
          }
        },
        "actions":
        [
          {
            "publishFindingsToCloudDataCatalog": {}
          }
        ]
      }
    }
    

Weitere Informationen zu den verfügbaren Scanoptionen finden Sie unter Speicher und Datenbanken auf sensible Daten prüfen. Eine vollständige Liste der Informationstypen, die Cloud DLP suchen und erkennen kann, finden Sie in der Referenz zu InfoTypes.

Schritt 3: Anfrage ausführen, um den Scanjob zu starten

Nachdem Sie den Job mithilfe der vorherigen Schritte konfiguriert haben, klicken Sie auf Ausführen, um die Anfrage zu senden. Wenn die Anfrage erfolgreich ist, wird eine Antwort mit einem Erfolgscode und einem JSON-Objekt angezeigt, das den Status des gerade erstellten Cloud DLP-Jobs angibt.

Die Antwort auf Ihre Scananfrage enthält die Job-ID des Inspektionsscanjobs als "name"-Schlüssel und den aktuellen Status des Inspektionsscanjobs als "state"-Schlüssel. Da Sie die Anfrage gerade gesendet haben, lautet der Jobstatus in diesem Moment "PENDING".

Status des Cloud DLP-Inspektionsscans prüfen

Nachdem Sie die Scananfrage gesendet haben, wird der Inhalt sofort abgesucht.

Google Cloud Console

So prüfen Sie den Status des Inspektionsscanjobs:

  1. Öffnen Sie Cloud DLP in der Google Cloud Console.

    Zu Cloud DLP

  2. Klicken Sie auf den Tab Jobs und Job-Trigger und dann auf Alle Jobs.

Der Job, den Sie gerade ausgeführt haben, befindet sich wahrscheinlich ganz oben in der Liste. Prüfen Sie in der Spalte Status, ob der Status Fertig lautet.

Sie können auf die Job-ID des Jobs klicken, um die Ergebnisse aufzurufen. Auf jeden infoType-Detektor, der auf der Seite "Jobdetails" aufgelistet ist, folgt die Anzahl der Übereinstimmungen, die im Inhalt gefunden wurden.

DLP API

So prüfen Sie den Status des Inspektionsscanjobs:

  1. Klicken Sie auf die folgende Schaltfläche, um APIs Explorer auf der Referenzseite für die Methode dlpJobs.get aufzurufen:

    APIs Explorer öffnen

  2. Geben Sie im Feld Name den Namen des Jobs aus der JSON-Antwort auf die Scananfrage in folgendem Format ein:

    projects/project-id/dlpJobs/job-id
    Die Job-ID hat das Format i-1234567890123456789.

  3. Zum Absenden der Anfrage klicken Sie auf Ausführen.

Wenn der Schlüssel "state" des JSON-Antwortobjekts angibt, dass der Job "DONE" ist, bedeutet dies, dass der Scanjob abgeschlossen ist.

Scrollen Sie die Seite nach unten, um den Rest des JSON-Antwortcodes anzusehen. Unter "result" > "infoTypeStats" sollte jeder aufgeführte Informationstyp einen entsprechenden "count" haben. Wenn nicht, prüfen Sie, ob Sie den JSON-Code richtig eingegeben haben und der Pfad oder Speicherort Ihrer Daten korrekt ist.

Nachdem der Scanjob abgeschlossen ist, können Sie mit dem nächsten Abschnitt dieser Anleitung fortfahren, um die Scanergebnisse im Security Command Center anzuzeigen.

Cloud DLP-Scanergebnisse in Data Catalog ansehen

Da Sie Cloud DLP angewiesen haben, die Ergebnisse des Inspektionsscanjobs an Data Catalog zu senden, können Sie jetzt die automatisch erstellten Tags und die Tag-Vorlage in der Data Catalog-Benutzeroberfläche ansehen:

  1. Rufen Sie in der Google Cloud Console die Data Catalog-Seite auf.

    Zu Data Catalog

  2. Suchen Sie nach der Tabelle, die Sie geprüft haben.
  3. Klicken Sie auf die Ergebnisse, die Ihrer Tabelle entsprechen, um die Metadaten der Tabelle anzusehen.

Der folgende Screenshot zeigt die Data Catalog-Metadatenansicht einer Beispieltabelle:

DLP-Details in Data Catalog.

Cloud DLP-Datenermittlung

Die Ergebnisse von Cloud DLP sind im Zusammenfassungsformat für die gescannte Tabelle enthalten. Diese Zusammenfassung enthält die infoType-Gesamtzahl sowie Übersichtsdaten zum Inspektionsjob, die Datumsangaben und die ID der Jobressource enthalten.

Alle infoTypes, die geprüft wurden, werden aufgelistet. In diesen Ergebnissen wird eine Anzahl größer null angezeigt.

Bereinigen

Führen Sie einen der folgenden Schritte aus, um zu vermeiden, dass Ihrem Google Cloud-Konto die in diesem Thema verwendeten Ressourcen in Rechnung gestellt werden, je nachdem, ob Sie Beispieldaten oder Ihre eigenen Daten verwendet haben:

Projekt löschen

Am einfachsten vermeiden Sie unnötige Kosten, wenn Sie das durch Befolgen der Anweisungen in diesem Thema erstellte Projekt löschen.

So löschen Sie das Projekt:

  1. Rufen Sie in der Google Cloud Console die Seite „Projekte“ auf.

    Zur Seite „Projekte“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie auf Delete Project (Projekt löschen). Klicken Sie auf das Kästchen neben dem Projektnamen und dann auf "Projekt löschen".
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Beenden, um das Projekt zu löschen.

Wenn Sie Ihr Projekt mit dieser Methode löschen, werden auch der von Ihnen erstellte Cloud DLP-Job und der Cloud Storage-Bucket gelöscht. Es ist nicht notwendig, die Anweisungen in den folgenden Abschnitten zu befolgen.

Cloud DLP-Job oder Job-Trigger löschen

Wenn Sie Ihre eigenen Daten gescannt haben, löschen Sie den gerade erstellten Inspektionsscan-Job oder Job-Trigger.

Google Cloud Console

  1. Öffnen Sie Cloud DLP in der Google Cloud Console.

    Zu Cloud DLP

  2. Klicken Sie auf den Tab Jobs und Job-Trigger und dann auf den Tab Job-Trigger.

  3. Klicken Sie in der Spalte Aktionen für den zu löschenden Job-Trigger auf das Dreipunktmenü und dann auf Löschen.

Optional können Sie auch die Jobdetails für den ausgeführten Job löschen. Klicken Sie auf den Tab Alle Jobs. In der Spalte Aktionen für den zu löschenden Job klicken Sie auf das Dreipunktmenü und dann auf Löschen.

DLP API

  1. Klicken Sie auf die folgende Schaltfläche, um APIs Explorer auf der Referenzseite für die Methode dlpJobs.delete aufzurufen:

    APIs Explorer öffnen

  2. Geben Sie im Feld Name den Namen des Jobs aus der JSON-Antwort auf die Scananfrage ein. Er hat das folgende Format:

    projects/project-id/dlpJobs/job-id
    Die Job-ID hat das Format i-1234567890123456789.

Wenn Sie zusätzliche Scanjobs erstellt haben oder den Job erfolgreich löschen möchten, können Sie alle vorhandenen Jobs auflisten:

  1. Klicken Sie auf die folgende Schaltfläche, um APIs Explorer auf der Referenzseite für die Methode dlpJobs.list aufzurufen:

    APIs Explorer öffnen

  2. Geben Sie im Feld parent die Projekt-ID im folgenden Format ein, wobei project-id Ihre Projekt-ID ist:

    projects/project-id

  3. Klicken Sie auf Execute.

Wenn in der Antwort keine Jobs aufgeführt sind, haben Sie alle Jobs gelöscht. Wenn Jobs in der Antwort aufgeführt sind, wiederholen Sie den oben beschriebenen Löschvorgang für diese Jobs.

Weitere Informationen