Mit der Google Cloud Console de-identifizierte Kopien der in Cloud Storage gespeicherten Daten erstellen

Auf dieser Seite wird beschrieben, wie Sie mit dem Schutz sensibler Daten in der Google Cloud Console ein Cloud Storage-Verzeichnis untersuchen und de-identifizierte Kopien der unterstützten Dateien erstellen.

Dadurch wird sichergestellt, dass die Dateien, die Sie in Ihren Geschäftsprozessen verwenden, keine sensiblen Daten wie personenidentifizierbare Informationen enthalten. Der Schutz sensibler Daten kann Dateien in einem Cloud Storage-Bucket auf sensible Daten prüfen und de-identifizierte Kopien dieser Dateien in einem separaten Bucket erstellen. Diese de-identifizierten Kopien können Sie dann in Ihren Geschäftsprozessen verwenden.

Weitere Informationen dazu, was passiert, wenn Sie Daten im Speicher de-identifizieren, finden Sie unter De-Identifikation sensibler Daten im Speicher.

Hinweise

Auf dieser Seite wird Folgendes vorausgesetzt:

Mehr über die Einschränkungen und Punkte für diesen Vorgang erfahren

Für die Speicherprüfung ist der folgende OAuth-Bereich erforderlich: https://www.googleapis.com/auth/cloud-platform. Weitere Informationen finden Sie unter Bei der DLP API authentifizieren.

Erforderliche IAM-Rollen

Wenn sich alle Ressourcen für diesen Vorgang im selben Projekt befinden, ist die Rolle des DLP API-Dienst-Agents (roles/dlp.serviceAgent) auf dem Dienst-Agent ausreichend. Mit dieser Rolle können Sie Folgendes tun:

  • Inspektionsjob erstellen
  • Dateien im Eingabeverzeichnis lesen
  • De-identifizierte Dateien in das Ausgabeverzeichnis schreiben
  • Transformationsdetails in eine BigQuery-Tabelle schreiben

Zu den relevanten Ressourcen gehören der Inspektionsjob, De-Identifikationsvorlagen, Eingabe-Bucket, Ausgabe-Bucket und Tabelle mit Transformationsdetails.

Wenn Sie die Ressourcen in separaten Projekten haben müssen, muss der Dienst-Agent Ihres Projekts auch die folgenden Rollen haben:

  • Die Rolle „Storage-Objekt-Betrachter“ (roles/storage.objectViewer) für den Eingabe-Bucket oder das Projekt, das ihn enthält.
  • Die Rolle „Storage Object Creator“ (roles/storage.objectCreator) für den Ausgabe-Bucket oder das Projekt, das ihn enthält.
  • Die Rolle „BigQuery-Datenbearbeiter“ (roles/bigquery.dataEditor) für die Tabelle mit den Transformationsdetails oder für das Projekt, das sie enthält.

Informationen zum Zuweisen einer Rolle zu Ihrem Dienst-Agent, bei dem es sich um ein von Google verwaltetes Dienstkonto ist, finden Sie unter Eine einzelne Rolle zuweisen. Sie können den Zugriff auch auf den folgenden Ebenen steuern:

Überblick

Zum Erstellen de-identifizierter Kopien Ihrer Cloud Storage-Dateien konfigurieren Sie einen Inspektionsjob, der nach sensiblen Daten gemäß den von Ihnen angegebenen Kriterien sucht. Anschließend aktivieren Sie im Inspektionsjob die Aktion De-identifizierte Kopie erstellen. Sie können De-Identifikationsvorlagen festlegen, die vorgeben, wie der Schutz sensibler Daten die Ergebnisse transformieren muss. Wenn Sie keine De-Identifikationsvorlage angeben, transformiert der Schutz sensibler Daten die Ergebnisse wie unter Standardverhalten für die De-Identifikation beschrieben.

Wenn Sie die Aktion De-identifizierte Kopie erstellen aktivieren, transformiert der Schutz sensibler Daten standardmäßig alle unterstützten Dateitypen, die im Scan enthalten sind. Sie können den Job jedoch so konfigurieren, dass nur ein Teil der unterstützten Dateitypen transformiert wird.

Optional: De-Identifikationsvorlagen erstellen

Wenn Sie steuern möchten, wie die Ergebnisse transformiert werden, erstellen Sie die folgenden Vorlagen. Diese Vorlagen enthalten Anweisungen zum Transformieren von Ergebnissen in strukturierte Dateien, unstrukturierte Dateien und Bilder.

  • De-Identifikationsvorlage:Eine Standard-De-Identifikationsvorlage, die für unstrukturierte Dateien wie freie Textdateien verwendet wird. Diese Art von De-Identifikationsvorlage darf keine Eintragstransformationen enthalten, die nur für strukturierte Inhalte unterstützt werden. Wenn diese Vorlage nicht vorhanden ist, verwendet der Schutz sensibler Daten die infoType-Ersetzung-Methode, um unstrukturierte Dateien zu transformieren.

  • Strukturierte De-Identifikationsvorlage:Eine De-Identifikationsvorlage, die für strukturierte Dateien wie CSV-Dateien verwendet wird. Diese De-Identifikationsvorlage kann Datensatztransformationen enthalten. Wenn diese Vorlage nicht vorhanden ist, verwendet der Schutz sensibler Daten die von Ihnen erstellte Standard-De-Identifikationsvorlage. Wenn dies ebenfalls nicht vorhanden ist, verwendet der Schutz sensibler Daten die infoType-Ersetzungsmethode, um strukturierte Dateien zu transformieren.

  • Vorlage zum Entfernen von Bildern: Eine De-Identifikationsvorlage, die für Bilder verwendet wird. Wenn diese Vorlage nicht vorhanden ist, werden alle Ergebnisse in Bildern mit einer schwarzen Box entfernt.

Informationen zum Erstellen einer De-Identifikationsvorlage

Inspektionsjob mit einer De-Identifikationsaktion erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Job oder Job-Trigger erstellen auf.

    Zur Seite „Job oder Job-Trigger erstellen“

  2. Geben Sie die Jobinformationen für den Schutz sensibler Daten ein und klicken Sie zum Ausführen der einzelnen Schritte auf Weiter.

In den folgenden Abschnitten wird beschrieben, wie die relevanten Bereiche der Seite ausgefüllt werden.

Eingabedaten auswählen

Führen Sie im Abschnitt Eingabedaten auswählen die folgenden Schritte aus:

  1. Optional: Geben Sie unter Name eine Kennzeichnung für den Inspektionsjob ein.
  2. Wählen Sie für Ressourcenstandort die Option Global oder die Region aus, in der Sie den Inspektionsjob speichern möchten.
  3. Wählen Sie als Speicherort die Option Google Cloud Storage aus.
  4. Geben Sie unter URL den Pfad zum Eingabeverzeichnis ein. Das Eingabeverzeichnis enthält die Daten, die Sie scannen möchten, z. B. gs://input-bucket/folder1/folder1a. Wenn Sie das Eingabeverzeichnis rekursiv scannen möchten, fügen Sie der URL einen abschließenden Schrägstrich hinzu und wählen Sie dann Rekursiv aus.
  5. Wählen Sie im Abschnitt Stichproben in der Liste Stichprobenmethode die Option Keine Stichprobenerhebung aus.

    Die Stichprobenerhebung wird für Jobs und Job-Trigger, die mit De-Identifikation konfiguriert sind, nicht unterstützt.

Erkennung konfigurieren

Wählen Sie im Abschnitt Erkennung konfigurieren die Typen von sensiblen Daten aus, die geprüft werden sollen. Diese werden als infoTypes bezeichnet. Sie können entweder einen vordefinierten infoType aus der Liste oder, sofern vorhanden, eine Vorlage auswählen. Weitere Informationen finden Sie unter Erkennung konfigurieren.

Aktionen hinzufügen

Führen Sie im Bereich Add actions (Aktionen hinzufügen) die folgenden Schritte aus:

  1. Aktivieren Sie De-identifizierte Kopie erstellen.
  2. Optional: Geben Sie unter De-Identifikationsvorlage den vollständigen Ressourcennamen der standardmäßigen De-Identifikationsvorlage ein, falls Sie eine erstellt haben.
  3. Optional: Geben Sie unter Strukturierte De-Identifikationsvorlage den vollständigen Ressourcennamen der De-Identifikationsvorlage für strukturierte Dateien ein, sofern Sie eine erstellt haben. Andernfalls wird für den Schutz sensibler Daten die Standardvorlage verwendet, sofern Sie eine erstellt haben.
  4. Optional: Geben Sie unter Vorlage zur Bildentfernung den vollständigen Ressourcennamen der Vorlage für das Entfernen von Bildern für Bilder ein, sofern Sie eine erstellt haben.
  5. Optional: Wenn der Schutz sensibler Daten die Transformationsdetails in einer BigQuery-Tabelle speichern soll, wählen Sie Transformationsdetails nach BigQuery exportieren aus und geben Sie dann Folgendes ein:

    • Projekt-ID: das Projekt, das die BigQuery-Tabelle enthält.
    • Dataset-ID: Das Dataset, das die BigQuery-Tabelle enthält.
    • Tabellen-ID: Die Tabelle, in der der Schutz sensibler Daten Details zu jeder Transformation speichern muss. Der Schutz sensibler Daten erstellt diese Tabelle mit der von Ihnen angegebenen Tabellen-ID. Wenn Sie keine Tabellen-ID angeben, erstellt das System automatisch eine.

    In dieser Tabelle wird nicht der tatsächliche de-identifizierte Inhalt gespeichert.

    Wenn Daten in eine BigQuery-Tabelle geschrieben werden, werden die Abrechnungs- und Kontingentnutzung auf das Projekt angewendet, das die Zieltabelle enthält.

  6. Geben Sie unter Cloud Storage-Ausgabespeicherort die URL des Cloud Storage-Verzeichnisses ein, in dem Sie die de-identifizierten Dateien speichern möchten. Dieses Verzeichnis darf sich nicht im selben Cloud Storage-Bucket wie das Eingabeverzeichnis befinden.

  7. Optional: Wählen Sie unter Dateitypen die Dateitypen aus, die Sie umwandeln möchten.

Weitere Informationen zu weiteren Aktionen, die Sie hinzufügen können, finden Sie unter Aktionen hinzufügen.

Zeitplan

Geben Sie im Abschnitt Zeitplan an, ob dieser Job zu einem wiederkehrenden Job gemacht werden soll:

  • Wenn Sie den Scan nur einmal ausführen möchten, lassen Sie das Feld auf None festgelegt.
  • Klicken Sie auf Trigger zum Ausführen des Jobs nach einem regelmäßigen Zeitplan erstellen, um die regelmäßige Ausführung von Scans zu planen.

Weitere Informationen finden Sie unter Zeitplan.

Überprüfen

  1. Überprüfen Sie im Abschnitt Zeitplan die Jobkonfiguration und bearbeiten Sie den Job bei Bedarf.

  2. Klicken Sie auf Erstellen.

Wenn Sie den Job nicht geplant haben, wird er sofort vom Schutz sensibler Daten ausgeführt. Nachdem der Job abgeschlossen ist, werden Sie vom System zur Seite Jobdetails weitergeleitet. Dort können Sie die Ergebnisse der Inspektions- und De-Identifikationsvorgänge ansehen.

Wenn Sie sich dafür entschieden haben, die Transformationsdetails in eine BigQuery-Tabelle zu exportieren, wird die Tabelle ausgefüllt. Er enthält eine Zeile für jede Transformation, die durch den Schutz sensibler Daten vorgenommen wurde. Zu jeder Transformation gehören eine Beschreibung, ein Erfolgs- oder Fehlercode, Fehlerdetails, die Anzahl der transformierten Byte, der Speicherort des transformierten Inhalts und der Name des Inspektionsjobs, in dem der Schutz sensibler Daten die Umwandlung durchgeführt hat. Diese Tabelle enthält nicht den tatsächlichen de-identifizierten Inhalt.

Bestätigen Sie, dass die Dateien de-identifiziert wurden.

  1. Klicken Sie auf der Seite Jobdetails auf den Tab Konfiguration.
  2. Klicken Sie zum Aufrufen der de-identifizierten Dateien im Ausgabeverzeichnis auf den Link im Feld Ausgabe-Bucket für de-identifizierte Cloud Storage-Daten.
  3. Klicken Sie auf den Link im Feld Transformationsdetails, um die BigQuery-Tabelle mit den Transformationsdetails aufzurufen.

    Informationen zum Abfragen einer BigQuery-Tabelle finden Sie unter Interaktive Abfragen ausführen.

Nächste Schritte