Mit der Google Cloud Console de-identifizierte Kopien von in Cloud Storage gespeicherten Daten erstellen

Auf dieser Seite wird beschrieben, wie Sie mit dem Schutz sensibler Daten in der Google Cloud Console ein Cloud Storage-Verzeichnis prüfen und de-identifizierte Kopien der unterstützten Dateien erstellen.

So können Sie dafür sorgen, dass die Dateien, die Sie in Ihren Geschäftsprozessen verwenden, keine sensiblen Daten wie personenidentifizierbare Informationen enthalten. Mit dem Schutz sensibler Daten können Dateien in einem Cloud Storage-Bucket auf sensible Daten geprüft und de-identifizierte Kopien dieser Dateien in einem separaten Bucket erstellt werden. Sie können die de-identifizierten Kopien dann in Ihren Geschäftsprozessen verwenden.

Weitere Informationen dazu, was passiert, wenn Sie Daten im Speicher de-identifizieren, finden Sie unter Sensible Cloud Storage-Daten de-identifizieren.

Hinweise

Auf dieser Seite wird Folgendes vorausgesetzt:

Weitere Informationen zu den Einschränkungen und zu beachtenden Punkten

Die Speicherprüfung erfordert den folgenden OAuth-Bereich: https://www.googleapis.com/auth/cloud-platform. Weitere Informationen finden Sie unter Bei der DLP API authentifizieren.

Erforderliche IAM-Rollen

Wenn sich alle Ressourcen für diesen Vorgang im selben Projekt befinden, reicht die Rolle „DLP API-Dienst-Agent“ (roles/dlp.serviceAgent) für den Dienst-Agenten aus. Mit dieser Rolle haben Sie folgende Möglichkeiten:

  • Inspektionsjob erstellen
  • Dateien im Eingabeverzeichnis lesen
  • Die de-identifizierten Dateien in das Ausgabeverzeichnis schreiben
  • Details zur Transformation in eine BigQuery-Tabelle schreiben

Zu den relevanten Ressourcen gehören der Inspektionsjob, De-Identifikationsvorlagen, Eingabe- und Ausgabe-Buckets sowie die Tabelle mit Transformationsdetails.

Wenn die Ressourcen in separaten Projekten vorhanden sein müssen, muss der Dienstagent Ihres Projekts auch die folgenden Rollen haben:

  • Die Rolle „Storage-Objekt-Betrachter“ (roles/storage.objectViewer) für den Eingabe-Bucket oder das Projekt, das ihn enthält.
  • Die Rolle „Storage Object Creator“ (roles/storage.objectCreator) für den Ausgabe-Bucket oder das Projekt, das ihn enthält.
  • Die Rolle „BigQuery-Datenbearbeiter“ (roles/bigquery.dataEditor) für die Tabelle mit den Transformationsdetails oder für das Projekt, das sie enthält.

Eine Anleitung zum Zuweisen einer Rolle für den Kundenservicemitarbeiter finden Sie unter Einzelne Rolle zuweisen. Sie können den Zugriff auch auf den folgenden Ebenen steuern:

Übersicht

Wenn Sie de-identifizierte Kopien Ihrer Cloud Storage-Dateien erstellen möchten, konfigurieren Sie einen Inspektionsjob, der nach sensiblen Daten sucht, die den von Ihnen angegebenen Kriterien entsprechen. Aktivieren Sie dann im Inspektionsjob die Aktion Eine de-identifizierte Kopie erstellen. Sie können De-Identifikationsvorlagen festlegen, die festlegen, wie die Ergebnisse mit dem Schutz sensibler Daten transformiert werden müssen. Wenn Sie keine De-Identifikationsvorlage angeben, werden die Ergebnisse im Rahmen des Schutzes sensibler Daten wie unter Standardverhalten für die De-Identifikation beschrieben transformiert.

Wenn Sie die Aktion De-identifizierte Kopie erstellen aktivieren, werden standardmäßig alle unterstützten Dateitypen, die im Scan enthalten sind, mit dem Schutz sensibler Daten transformiert. Sie können den Job jedoch so konfigurieren, dass nur ein Teil der unterstützten Dateitypen umgewandelt wird.

Optional: De-Identifikationsvorlagen erstellen

Wenn Sie festlegen möchten, wie die Ergebnisse transformiert werden, erstellen Sie die folgenden Vorlagen. Diese Vorlagen enthalten eine Anleitung zum Umwandeln von Ergebnissen in strukturierten Dateien, unstrukturierten Dateien und Bildern.

  • De-Identifikationsvorlage:Eine Standard-De-Identifikationsvorlage, die für unstrukturierte Dateien wie Textdateien im freien Format verwendet wird. Diese Art von De-Identifikationsvorlage darf keine Eintragstransformationen enthalten, die nur für strukturierte Inhalte unterstützt werden. Wenn diese Vorlage nicht vorhanden ist, verwendet der Schutz sensibler Daten die Methode infoType-Ersatz, um unstrukturierte Dateien zu transformieren.

  • Strukturierte De-Identifikationsvorlage:Eine De-Identifikationsvorlage, die für strukturierte Dateien wie CSV-Dateien verwendet wird. Diese De-Identifikationsvorlage kann Datensatztransformationen enthalten. Wenn diese Vorlage nicht vorhanden ist, verwendet Sensitive Data Protection die von Ihnen erstellte Standard-De-Identifikationsvorlage. Ist auch das nicht vorhanden, verwendet der Schutz sensibler Daten die infoType-Ersatzmethode, um strukturierte Dateien zu transformieren.

  • Vorlage zum Entfernen von Bildern:Eine De-Identifikationsvorlage, die für Bilder verwendet wird. Wenn diese Vorlage nicht vorhanden ist, werden alle Ergebnisse in Bildern mit einem schwarzen Feld entfernt.

Weitere Informationen zum Erstellen einer De-Identifikationsvorlage

Inspektionsjob mit De-Identifikationsaktion erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Job oder Jobtrigger erstellen auf.

    Zur Seite „Job oder Job-Trigger erstellen“

  2. Geben Sie die Informationen zum Job zum Schutz sensibler Daten ein und klicken Sie auf Weiter, um die einzelnen Schritte auszuführen.

In den folgenden Abschnitten wird beschrieben, wie Sie die entsprechenden Abschnitte der Seite ausfüllen.

Eingabedaten auswählen

Gehen Sie im Bereich Eingabedaten auswählen so vor:

  1. Optional: Geben Sie unter Name eine Kennzeichnung für den Inspektionsauftrag ein.
  2. Wählen Sie unter Ressourcenspeicherort die Option Global oder die Region aus, in der Sie den Prüfauftrag speichern möchten.
  3. Wählen Sie als Speicherort die Option Google Cloud Storage aus.
  4. Geben Sie unter URL den Pfad zum Eingabeverzeichnis ein. Das Eingabeverzeichnis enthält die Daten, die Sie scannen möchten, z. B. gs://input-bucket/folder1/folder1a. Wenn Sie das Eingabeverzeichnis rekursiv scannen möchten, fügen Sie der URL einen Schrägstrich hinzu und wählen Sie dann Rekursiv scannen aus.
  5. Wählen Sie im Bereich Stichprobenerhebung in der Liste Stichprobenerhebungsmethode die Option Keine Stichprobenerhebung aus.

    Die Stichprobenerhebung wird für Jobs und Jobtrigger, die mit der De-Identifikation konfiguriert sind, nicht unterstützt.

Erkennung konfigurieren

Wählen Sie im Abschnitt Erkennung konfigurieren die Typen sensibler Daten aus, nach denen gesucht werden soll. Diese werden als infoTypes bezeichnet. Sie haben die Möglichkeit, einen vordefinierten infoType aus der Liste oder eine Vorlage (sofern vorhanden) auszuwählen. Weitere Informationen finden Sie unter Erkennung konfigurieren.

Aktionen hinzufügen

Gehen Sie im Abschnitt Aktionen hinzufügen so vor:

  1. Aktivieren Sie De-identifizierte Kopie erstellen.
  2. Optional: Geben Sie unter De-Identifikationsvorlage den vollständigen Ressourcennamen der Standard-De-Identifikationsvorlage ein, falls Sie eine erstellt haben.
  3. Optional: Geben Sie unter Strukturierte De-Identifikationsvorlage den vollständigen Ressourcennamen der De-Identifikationsvorlage für strukturierte Dateien ein, falls Sie eine erstellt haben. Andernfalls wird die Standardvorlage für den Schutz sensibler Daten verwendet, sofern Sie eine erstellt haben.
  4. Optional: Geben Sie unter Vorlage zum Entfernen von Bildern den vollständigen Ressourcennamen der Vorlage zum Entfernen von Bildern ein, falls Sie eine erstellt haben.
  5. Optional: Wenn Sie möchten, dass der Schutz sensibler Daten die Transformationsdetails in einer BigQuery-Tabelle speichert, wählen Sie Details zur Transformation nach BigQuery exportieren aus und füllen Sie die folgenden Felder aus:

    • Projekt-ID: Das Projekt, das die BigQuery-Tabelle enthält.
    • Dataset-ID: Das Dataset, das die BigQuery-Tabelle enthält.
    • Tabellen-ID: Die Tabelle, in der der Schutz sensibler Daten Details zu jeder Transformation speichern muss. Sensitive Data Protection erstellt diese Tabelle mit der von Ihnen angegebenen Tabellen-ID. Wenn Sie keine Tabellen-ID angeben, wird automatisch eine erstellt.

    In dieser Tabelle werden nicht die tatsächlichen de-identifizierten Inhalte gespeichert.

    Wenn Daten in eine BigQuery-Tabelle geschrieben werden, werden die Abrechnung und Kontingentnutzung auf das Projekt angewendet, das die Zieltabelle enthält.

  6. Geben Sie unter Cloud Storage-Ausgabespeicherort die URL des Cloud Storage-Verzeichnisses ein, in dem Sie die de-identifizierten Dateien speichern möchten. Dieses Verzeichnis darf sich nicht im selben Cloud Storage-Bucket wie das Eingabeverzeichnis befinden.

  7. Optional: Wählen Sie unter Dateitypen die Dateitypen aus, die Sie transformieren möchten.

Weitere Informationen zu anderen Aktionen, die Sie hinzufügen können, finden Sie unter Aktionen hinzufügen.

Planen

Geben Sie im Bereich Schedule (Planen) an, ob dieser Job wiederkehrend sein soll:

  • Wenn der Scan nur einmal ausgeführt werden soll, belassen Sie das Feld auf Keiner.
  • Klicken Sie auf Trigger zum Ausführen des Jobs nach einem regelmäßigen Zeitplan erstellen, um die regelmäßige Ausführung von Scans zu planen.

Weitere Informationen finden Sie unter Zeitplan.

Überprüfen

  1. Überprüfen Sie im Bereich Zeitplan die Jobkonfiguration und bearbeiten Sie den Job bei Bedarf.

  2. Klicken Sie auf Erstellen.

Wenn Sie den Job nicht geplant haben, wird er sofort vom Sensitive Data Protection-Dienst ausgeführt. Nach Abschluss des Jobs werden Sie zur Seite Jobdetails weitergeleitet. Dort können Sie die Ergebnisse der Prüfung und De-Identifikation ansehen.

Wenn Sie die Transformationsdetails in eine BigQuery-Tabelle exportiert haben, wird die Tabelle aufgefüllt. Sie enthält eine Zeile für jede Transformation, die mit Sensitive Data Protection durchgeführt wurde. Zu jeder Transformation gehören eine Beschreibung, ein Erfolgs- oder Fehlercode, Fehlerdetails, die Anzahl der transformierten Bytes, der Speicherort der transformierten Inhalte und der Name des Prüfjobs, in dem die Transformation durch den Schutz sensibler Daten durchgeführt wurde. Diese Tabelle enthält nicht die tatsächlichen de-identifizierten Inhalte.

Prüfen, ob die Dateien de-identifiziert wurden

  1. Klicken Sie auf der Seite Jobdetails auf den Tab Konfiguration.
  2. Wenn Sie die de-identifizierten Dateien im Ausgabeverzeichnis aufrufen möchten, klicken Sie auf den Link im Feld Output-Bucket für de-identifizierte Cloud Storage-Daten.
  3. Wenn Sie die BigQuery-Tabelle mit den Transformationsdetails aufrufen möchten, klicken Sie auf den Link im Feld Transformationsdetails.

    Informationen zum Abfragen einer BigQuery-Tabelle finden Sie unter Interaktive Abfragen ausführen.

Nächste Schritte