Cloud DLP-Scanergebnisse an Data Catalog senden

In dieser Anleitung wird beschrieben, wie Sie mit Cloud Data Loss Prevention (Cloud DLP) bestimmte Google Cloud-Ressourcen scannen und Ergebnisse an Data Catalog senden können.

Data Catalog ist ein skalierbarer Dienst zur Metadatenverwaltung, mit dem Sie alle Ihre Daten in Google Cloud schnell finden, verwalten und verstehen können.

Cloud DLP ist nativ in Data Catalog enthalten. Wenn Sie mit einer Cloud DLP-Aktion Ihre BigQuery-Tabellen nach sensiblen Daten scannen, können Ergebnisse direkt in Form einer Tag-Vorlage an Data Catalog gesendet werden.

Die Schritte in diesem Leitfaden führen zu folgenden Ergebnissen:

  • Sie aktivieren Data Catalog und Cloud DLP.
  • Sie richten Cloud DLP zum Scannen einer BigQuery-Tabelle ein.
  • Sie konfigurieren einen Cloud DLP-Scan, um Scanergebnisse an Data Catalog zu senden.

Weitere Informationen zu Data Catalog finden Sie in der Data Catalog-Dokumentation.

Kosten

Wenn Sie der Anleitung in diesem Thema folgen, verwenden Sie kostenpflichtige Komponenten von Google Cloud, darunter:

  • Cloud DLP
  • BigQuery

Sie können mithilfe des Preisrechners eine Kostenschätzung für Ihre voraussichtliche Nutzung erstellen.

Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Vorbereitung

Bevor Sie Cloud DLP-Scanergebnisse an Data Catalog senden können, müssen Sie Folgendes tun:

  • Schritt 1: Abrechnung einrichten
  • Schritt 2: Neues Projekt erstellen und neue BigQuery-Tabelle füllen. (Optional)
  • Schritt 3: Data Catalog aktivieren.
  • Schritt 4: Cloud DLP aktivieren

In den folgenden Unterabschnitten wird jeder Schritt detailliert beschrieben.

Schritt 1: Abrechnung einrichten

Sie müssen zuerst ein Rechnungskonto einrichten, falls Sie noch keines haben.

Weitere Informationen zum Aktivieren der Abrechnung

Schritt 2: Neues Projekt erstellen und neue BigQuery-Tabelle füllen (optional)

Wenn Sie dieses Feature für Produktionszwecke einrichten oder bereits eine BigQuery-Tabelle haben, die Sie scannen möchten, öffnen Sie das Google Cloud-Projekt, das die Tabelle enthält. Fahren Sie dann mit Schritt 3 fort.

Wenn Sie dieses Feature ausprobieren und einen "Dummy"- oder Testdatensatz scannen möchten, erstellen Sie ein neues Projekt. Für diesen Schritt benötigen Sie die Cloud IAM-Rolle Projektersteller. Weitere Informationen zu Cloud IAM-Rollen.

  1. Zur Seite "Neues Projekt" in der Google Cloud Console

    Neues Projekt

  2. Wählen Sie in der Drop-down-Liste Rechnungskonto das Rechnungskonto aus, dem das Projekt in Rechnung gestellt werden soll.
  3. Wählen Sie in der Drop-down-Liste Organisation die Organisation aus, in der Sie das Projekt erstellen möchten.
  4. Wählen Sie in der Drop-down-Liste Speicherort die Organisation oder den Ordner aus, in dem Sie das Projekt erstellen möchten.
  5. Klicken Sie auf Erstellen, um das Projekt zu erstellen.

Laden Sie anschließend die Beispieldaten herunter und speichern Sie diese:

  1. Öffnen Sie das Repository für Anleitungen zu Cloud Functions auf GitHub.
  2. Wählen Sie eine der CSV-Dateien mit Beispieldaten aus und laden Sie die Datei herunter.
  3. Rufen Sie als Nächstes in der Cloud Console BigQuery auf.
  4. Wählen Sie Ihr Projekt aus.
  5. Klicken Sie auf Dataset erstellen.
  6. Klicken Sie auf Tabelle erstellen.
  7. Klicken Sie auf Hochladen und wählen Sie die Datei aus, die Sie hochladen möchten.
  8. Geben Sie der Tabelle einen Namen und klicken Sie dann auf Tabelle erstellen.

Schritt 3: Data Catalog aktivieren

Aktivieren Sie als Nächstes Data Catalog für das Projekt, das die BigQuery-Tabelle enthält, die Sie mit Cloud DLP scannen möchten.

So aktivieren Sie Data Catalog über die Cloud Console:

  1. Registrieren Sie Ihre Anwendung für Data Catalog.

    Anwendung für Data Catalog registrieren

  2. Wählen Sie auf der Registrierungsseite in der Drop-down-Liste Projekt erstellen das Projekt aus, das Sie mit Data Catalog verwenden möchten. Wenn Sie dieses Feature nur testen möchten, wählen Sie unten im Menü Projekt erstellen aus, um ein neues Projekt zu erstellen.
  3. Klicken Sie nach der Auswahl des Projekts auf Weiter.

Data Catalog ist jetzt für Ihr Projekt aktiviert.

Schritt 4: Cloud DLP aktivieren

Aktivieren Sie Cloud DLP für das Projekt, für das Sie Data Catalog aktiviert haben.

So aktivieren Sie Cloud DLP über die Cloud Console:

  1. Registrieren Sie Ihre Anwendung für Cloud DLP.

    Anwendung für Cloud DLP registrieren

  2. Wählen Sie auf der Registrierungsseite in der Drop-down-Liste Projekt erstellen das Projekt aus, das Sie im vorherigen Schritt ausgewählt haben.
  3. Klicken Sie nach der Auswahl des Projekts auf Weiter.

Cloud DLP ist jetzt für Ihr Projekt aktiviert.

Cloud DLP-Inspektionsscan konfigurieren und ausführen

Sie können einen Cloud DLP-Inspektionsscan entweder über die Cloud Console oder die DLP API konfigurieren und ausführen.

Cloud Console

So richten Sie einen Scanjob für eine BigQuery-Tabelle mit Cloud DLP ein:

  1. Öffnen Sie in der Cloud Console Cloud DLP.

    Zu Cloud DLP

  2. Wählen Sie im Menü Erstellen die Option Job oder -Trigger aus.

    Grafik: Screenshot der Option

  3. Geben Sie die Informationen zum Cloud DLP-Job ein und klicken Sie auf Weiter, um die einzelnen Schritte abzuschließen:

    • Geben Sie für Schritt 1: Eingabedaten auswählen einen Namen für den Job im Feld Name ein. Wählen Sie unter Speicherort im Menü Speichertyp die Option BigQuery aus und geben Sie die Informationen für die zu scannende Tabelle ein. Der Bereich Probenahme ist zur Ausführung eines Beispielscans für Ihre Daten vorkonfiguriert. Sie können die Felder Zeilen beschränken durch und Maximale Zeilenanzahl anpassen, um bei großen Datenmengen Ressourcen zu sparen. Weitere Informationen finden Sie unter Eingabedaten auswählen.

    • (Optional) In Schritt 2: Erkennung konfigurieren können Sie festlegen, nach welchen Datentypen (infoTypes) gesucht werden soll. Lassen Sie für diese Anleitung die Standard-infoTypes ausgewählt. Weitere Informationen finden Sie unter Erkennung konfigurieren.

    • Aktivieren Sie für Schritt 3: Aktionen hinzufügen die Option In Data Catalog speichern.

    • (Optional) Übernehmen Sie für Schritt 4: Zeitplan bei dieser Anleitung die Menüoption Keiner, wenn der Scan nur einmal ausgeführt werden soll. Weitere Informationen zum Planen wiederkehrender Scans finden Sie unter Planen.

  4. Klicken Sie auf Erstellen. Der Job wird sofort ausgeführt.

DLP API

In diesem Abschnitt konfigurieren Sie den Cloud DLP-Scanjob und führen ihn aus.

Der hier konfigurierte Inspektionsjob weist Cloud DLP an, entweder die in Schritt 2 beschriebenen BigQuery-Beispieldaten oder Ihre eigenen BigQuery-Daten zu scannen. In der von Ihnen angegebenen Jobkonfiguration weisen Sie Cloud DLP außerdem an, die Suchergebnisse in Cloud Catalog zu speichern.

Schritt 1: Projektkennung notieren

  1. Gehen Sie zur Cloud Console.

    Zur Cloud Console

  2. Klicken Sie auf Auswählen.

  3. Wählen Sie in der Drop-down-Liste Auswählen aus die Organisation aus, für die Sie Data Catalog aktiviert haben.

  4. Kopieren Sie unter ID die Projekt-ID des Projekts, das die zu scannenden Daten enthält. Dies ist das Projekt, das im Schritt Speicher-Repositories festlegen weiter oben auf dieser Seite beschrieben wurde.

  5. Klicken Sie unter Name auf das Projekt, um es auszuwählen.

Schritt 2: APIs Explorer öffnen und den Job konfigurieren

  1. Rufen Sie APIs Explorer auf der Referenzseite für die Methode dlpJobs.create auf. Damit diese Anleitung verfügbar bleibt, klicken Sie mit der rechten Maustaste auf den folgenden Link und öffnen Sie ihn in einem neuen Tab oder Fenster:

    Zum APIs Explorer

  2. Geben Sie im Feld parent Folgendes ein, wobei project-id die Projekt-ID ist, die Sie zuvor notiert haben:

    projects/project-id

    Kopieren Sie als Nächstes den folgenden JSON-Code. Wählen Sie den Inhalt des Felds Anfragetext im APIs Explorer aus und fügen Sie den JSON-Code ein, um den Inhalt zu ersetzen. Ersetzen Sie die Platzhalter project-id, bigquery-dataset-name und bigquery-table-name jeweils durch die tatsächliche Projekt-ID sowie die Namen der BigQuery-Datasets und -Tabellen.

    {
      "inspectJob":
      {
        "storageConfig":
        {
          "bigQueryOptions":
          {
            "tableReference":
            {
              "projectId": "project-id",
              "datasetId": "bigquery-dataset-name",
              "tableId": "bigquery-table-name"
            }
          }
        },
        "inspectConfig":
        {
          "infoTypes":
          [
            {
              "name": "EMAIL_ADDRESS"
            },
            {
              "name": "PERSON_NAME"
            },
            {
              "name": "US_SOCIAL_SECURITY_NUMBER"
            },
            {
              "name": "PHONE_NUMBER"
            }
          ],
          "includeQuote": true,
          "minLikelihood": "UNLIKELY",
          "limits":
          {
            "maxFindingsPerRequest": 100
          }
        },
        "actions":
        [
          {
            "publishFindingsToCloudDataCatalog": {}
          }
        ]
      }
    }
    

Weitere Informationen zu den verfügbaren Scanoptionen finden Sie unter Speicher und Datenbanken auf sensible Daten prüfen. Eine vollständige Liste der Informationstypen, die Cloud DLP suchen und erkennen kann, finden Sie in der Referenz zu InfoTypes.

Schritt 3: Anfrage ausführen, um den Scanjob zu starten

Nachdem Sie den Job mithilfe der vorherigen Schritte konfiguriert haben, klicken Sie auf Ausführen, um die Anfrage zu senden. Wenn die Anfrage erfolgreich ist, wird eine Antwort mit einem Erfolgscode und einem JSON-Objekt angezeigt, das den Status des gerade erstellten Cloud DLP-Jobs angibt.

Die Antwort auf Ihre Scananfrage enthält die Job-ID des Inspektionsscanjobs als "name"-Schlüssel und den aktuellen Status des Inspektionsscanjobs als "state"-Schlüssel. Da Sie die Anfrage gerade gesendet haben, lautet der Jobstatus in diesem Moment "PENDING".

Status des Cloud DLP-Inspektionsscans prüfen

Nachdem Sie die Scananfrage gesendet haben, wird der Inhalt sofort abgesucht.

Cloud Console

So prüfen Sie den Status des Inspektionsscanjobs:

  1. Öffnen Sie in der Cloud Console Cloud DLP.

    Zu Cloud DLP

  2. Klicken Sie auf den Tab Jobs und Job-Trigger und dann auf Alle Jobs.

Der Job, den Sie gerade ausgeführt haben, befindet sich wahrscheinlich ganz oben in der Liste. Prüfen Sie in der Spalte Status, ob der Status Fertig lautet.

Sie können auf die Job-ID des Jobs klicken, um die Ergebnisse aufzurufen. Auf jeden infoType-Detektor, der auf der Seite "Jobdetails" aufgelistet ist, folgt die Anzahl der Übereinstimmungen, die im Inhalt gefunden wurden.

DLP API

So prüfen Sie den Status des Inspektionsscanjobs:

  1. Klicken Sie auf die folgende Schaltfläche, um APIs Explorer auf der Referenzseite für die Methode dlpJobs.get aufzurufen:

    Zum APIs Explorer

  2. Geben Sie im Textfeld Name den Namen des Jobs aus der JSON-Antwort auf die Scananfrage im folgenden Format ein:

    projects/project-id/dlpJobs/job-id
    Die Job-ID hat das Format i-1234567890123456789.

  3. Zum Absenden der Anfrage klicken Sie auf Ausführen.

Wenn der Schlüssel "state" des JSON-Antwortobjekts angibt, dass der Job "DONE" ist, bedeutet dies, dass der Scanjob abgeschlossen ist.

Scrollen Sie die Seite nach unten, um den Rest des JSON-Antwortcodes anzusehen. Unter "result" > "infoTypeStats" sollte jeder aufgeführte Informationstyp einen entsprechenden "count" haben. Wenn nicht, prüfen Sie, ob Sie den JSON-Code richtig eingegeben haben und der Pfad oder Speicherort Ihrer Daten korrekt ist.

Nachdem der Scanjob abgeschlossen ist, können Sie mit dem nächsten Abschnitt dieser Anleitung fortfahren, um die Scanergebnisse im Security Command Center anzuzeigen.

Cloud DLP-Scanergebnisse in Data Catalog ansehen

Da Sie Cloud DLP angewiesen haben, die Ergebnisse des Inspektionsscanjobs an Data Catalog zu senden, können Sie jetzt die automatisch erstellten Tags und die Tag-Vorlage in der Data Catalog-Benutzeroberfläche ansehen:

  1. Rufen Sie in der Cloud Console die Seite "Data Catalog" auf.

    Zu Data Catalog

  2. Suchen Sie nach der Tabelle, die Sie geprüft haben.
  3. Klicken Sie auf die Ergebnisse, die Ihrer Tabelle entsprechen, um die Metadaten der Tabelle anzusehen.

Der folgende Screenshot zeigt die Data Catalog-Metadatenansicht einer Beispieltabelle:

DLP-Details in Data Catalog.

Cloud DLP-Datenermittlung

Die Ergebnisse von Cloud DLP sind im Zusammenfassungsformat für die gescannte Tabelle enthalten. Diese Zusammenfassung enthält die infoType-Gesamtzahl sowie Übersichtsdaten zum Inspektionsjob, die Datumsangaben und die ID der Jobressource enthalten.

Alle infoTypes, die geprüft wurden, werden aufgelistet. In diesen Ergebnissen wird eine Anzahl größer null angezeigt.

Bereinigen

Führen Sie einen der folgenden Schritte aus, um zu vermeiden, dass Ihrem Google Cloud-Konto die in diesem Thema verwendeten Ressourcen in Rechnung gestellt werden, je nachdem, ob Sie Beispieldaten oder Ihre eigenen Daten verwendet haben:

Projekt löschen

Am einfachsten vermeiden Sie unnötige Kosten, wenn Sie das durch Befolgen der Anweisungen in diesem Thema erstellte Projekt löschen.

So löschen Sie das Projekt:

  1. Rufen Sie in der Cloud Console die Seite "Projekte" auf.

    Zur Seite "Projekte"

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie auf Projekt löschen. Klicken Sie auf das Kästchen neben dem Projektnamen und dann auf
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Beenden, um das Projekt zu löschen.

Wenn Sie Ihr Projekt mit dieser Methode löschen, werden auch der von Ihnen erstellte Cloud DLP-Job und der Cloud Storage-Bucket gelöscht. Es ist nicht notwendig, die Anweisungen in den folgenden Abschnitten zu befolgen.

Cloud DLP-Job oder Job-Trigger löschen

Wenn Sie Ihre eigenen Daten gescannt haben, löschen Sie den gerade erstellten Inspektionsscan-Job oder Job-Trigger.

Cloud Console

  1. Öffnen Sie in der Cloud Console Cloud DLP.

    Zu Cloud DLP

  2. Klicken Sie auf den Tab Jobs und Job-Trigger und dann auf den Tab Job-Trigger.

  3. Klicken Sie in der Spalte Aktionen für den zu löschenden Job-Trigger auf das Dreipunktmenü und dann auf Löschen.

Optional können Sie auch die Jobdetails für den ausgeführten Job löschen. Klicken Sie auf den Tab Alle Jobs. In der Spalte Aktionen für den zu löschenden Job klicken Sie auf das Dreipunktmenü und dann auf Löschen.

DLP API

  1. Klicken Sie auf die folgende Schaltfläche, um APIs Explorer auf der Referenzseite für die Methode dlpJobs.delete aufzurufen:

    Zum APIs Explorer

  2. Geben Sie im Textfeld Name den Namen des Jobs aus der JSON-Antwort auf die Scananfrage ein, der folgende Form hat:

    projects/project-id/dlpJobs/job-id
    Die Job-ID hat das Format i-1234567890123456789.

Wenn Sie zusätzliche Scanjobs erstellt haben oder den Job erfolgreich löschen möchten, können Sie alle vorhandenen Jobs auflisten:

  1. Klicken Sie auf die folgende Schaltfläche, um APIs Explorer auf der Referenzseite für die Methode dlpJobs.list aufzurufen:

    Zum APIs Explorer

  2. Geben Sie im Feld parent die Projekt-ID im folgenden Format ein, wobei project-id Ihre Projekt-ID ist:

    projects/project-id

  3. Klicken Sie auf Execute.

Wenn in der Antwort keine Jobs aufgeführt sind, haben Sie alle Jobs gelöscht. Wenn Jobs in der Antwort aufgeführt sind, wiederholen Sie den oben beschriebenen Löschvorgang für diese Jobs.

Weitere Informationen