Vertrauliche Daten entfernen


In dieser Anleitung erfahren Sie, wie Sie mit dem Cloud Data Fusion-Plug-in für Cloud DLP vertrauliche Daten entfernen.

Szenario

Stellen Sie sich das folgende Szenario vor, in dem einige vertrauliche Kundendaten muss entfernt werden:

Ihr Supportteam dokumentiert die Details jedes Supportfalls, der in einem Support-Ticket bearbeitet wird. Alle Informationen im Support-Ticket werden in eine CSV-Datei geladen. Die Supporttechniker sollten keine Kundendaten dokumentieren, die als vertraulich eingestuft werden, manchmal jedoch versehentlich.

Sie müssen die CSV-Datei durchgehen und alle Telefonnummern ausblenden. Erstellen Sie eine Cloud Data Fusion-Pipeline, die vertrauliche Kundendaten mithilfe des Cloud DLP-Plug-ins entfernt.

In dieser Anleitung erstellen Sie eine Pipeline, die Folgendes ausführt:

  • Die Telefonnummern von Kunden werden entfernt, indem sie mit dem Zeichen # maskiert werden.
  • Speichert die maskierten vertraulichen Daten und die nicht vertraulichen Daten in einem Cloud Storage-Bucket.

Ziele

  • Cloud Data Fusion mit einer Cloud Storage-Quelle verbinden.
  • Cloud DLP-Plug-in bereitstellen
  • Benutzerdefinierte Cloud DLP-Vorlage erstellen.
  • Redact-Transformations-Plug-in verwenden, um vertrauliche Kundendaten zu maskieren
  • Ausgabedaten in Cloud Storage schreiben

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. Erstellen Sie eine Cloud Data Fusion-Instanz.

Cloud DLP-Berechtigungen abrufen

  1. Öffnen Sie in der Google Cloud Console die Seite "IAM".

    IAM-Seite öffnen

  2. Suchen Sie in der Berechtigungstabelle in der Spalte Hauptkonto das Dienstkonto mit dem Format service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Klicken Sie auf  Bearbeiten.

  4. Klicken Sie auf Weitere Rolle hinzufügen.

  5. Wählen Sie mithilfe der Suchleiste DLP-Administrator aus.

  6. Klicken Sie auf Speichern.

  7. Prüfen Sie, ob DLP-Administrator in der Spalte Rolle angezeigt wird.

Bei Verwendung von Cloud Data Fusion verwenden Sie sowohl die Google Cloud Console als auch die separate Cloud Data Fusion-UI. In der Google Cloud Console kann ein Google Cloud Console-Projekt erstellen sowie Cloud Data Fusion-Instanzen. In der Benutzeroberfläche von Cloud Data Fusion können Sie die verschiedenen Seiten wie Studio oder Wrangler nutzen, um Features von Cloud Data Fusion zu nutzen.

  1. Öffnen Sie in der Google Cloud Console die Seite Instanzen.

    Zur Seite "Instanzen"

  2. Klicken Sie in der Spalte Aktionen für die Instanz auf den Link Instanz aufrufen. Die Benutzeroberfläche von Cloud Data Fusion wird in einem neuen Browsertab geöffnet.

Pipeline erstellen

Erstellen Sie eine Pipeline zur Entfernung vertraulicher Kundendaten. Die von Ihnen erstellte Pipeline führt folgende Aufgaben aus:

  • Die Eingabedaten werden mit dem Cloud Storage-Quell-Plug-in gelesen.
  • Stellt das Cloud DLP-Plug-in vom Hub aus bereit.
  • Schreibt die Ausgabedaten mit einem Cloud Storage-Senken-Plug-in.

Kundendaten laden

In dieser Anleitung wird das Eingabe-Dataset CallCenterRecords.csv verwendet, das in einem öffentlich verfügbaren Cloud Storage-Bucket bereitgestellt wird.

  1. Öffnen Sie Ihre Cloud Data Fusion-Instanz und klicken Sie auf  Menü > Studio.

  2. Klicken Sie im Menü Quelle auf das Plug-in Cloud Storage.

    Wählen Sie das Plug-in aus.

  3. Klicken Sie auf dem Knoten Cloud Storage auf Attribute.

  4. Geben Sie im Feld Referenzname einen Namen ein.

  5. Geben Sie im Feld Pfad gs://datafusion-sample-datasets/CallCenterRecords.csv ein.

  6. Wählen Sie im Feld Format die Option CSV aus.

  7. Löschen Sie unter Ausgabeschema die Felder offset und body. Klicken Sie auf  Hinzufügen und geben Sie die folgenden Felder ein:

    • Datum
    • Bank
    • State
    • Zip
    • Hinweise

    Geben Sie Quell-Properties ein.

  8. Klicken Sie auf Validieren, um nach Fehlern zu suchen.

  9. Klicken Sie auf Schließen.

Entfernen Sie sensible Daten

Das Cloud DLP-Redact-Plug-in identifiziert vertrauliche Datensätze in Ihrem Eingabedatenstrom und wendet von Ihnen definierte Transformationen auf diese Datensätze an. Ein Datensatz von Daten gelten als sensibel, wenn sie mit dem vordefinierten Cloud DLP übereinstimmen ausgewählten Filtern oder einer benutzerdefinierten Vorlage.

In dieser Anleitung möchten Sie die Telefonnummern von Kunden entfernen, die einige technische Mitarbeiter in Ihrem Team versehentlich bemerkt haben. Sie haben die vertraulichen Informationen im Abschnitt Hinweise der Support-Tickets eingegeben, der in der CSV-Datei in der Spalte Hinweise angezeigt wird. Sie erstellen eine benutzerdefinierte Cloud DLP-Vorlage und geben dann die Vorlagen-ID im Menü „Eigenschaften“ des Plug-ins an.

Cloud DLP-Plug-in bereitstellen

  1. Klicken Sie in Ihrer Cloud Data Fusion-Instanz auf Hub.

  2. Klicken Sie auf das Cloud DLP-Plug-in.

  3. Klicken Sie auf Bereitstellen.

  4. Klicken Sie auf Beenden.

  5. Klicken Sie auf Schließen, um Cloud DLP zu beenden. Dialogfeld.

  6. Klicken Sie auf Schließen, um den Hub zu verlassen.

Benutzerdefinierte Vorlage erstellen

  1. Öffnen Sie in der Google Cloud Console die Seite „Cloud DLP“.

    Zu Cloud DLP

  2. Wählen Sie im Menü Erstellen die Option Vorlage aus.Image

  3. Geben Sie im Feld Vorlagen-ID eine ID für Ihre Vorlage ein.

  4. Klicken Sie auf Weiter.

  5. Klicken Sie im Feld Erkennung konfigurieren auf Infotypen verwalten.

  6. Verwenden Sie auf dem Tab Integriert den Filter, um nach "Telefonnummer" zu suchen.

    Filter.

  7. Wählen Sie PHONE_NUMBER aus.

  8. Klicken Sie auf Fertig > Erstellen.

Weitere Informationen zum Thema Cloud DLP-Vorlagen erstellen

Cloud DLP-Redact-Transformation anwenden

  1. Rufen Sie die Seite Studio von Cloud Data Fusion auf und maximieren Sie das Menü Transformieren.

  2. Klicken Sie auf das Cloud DLP-Plug-in Redact.

    Klicken Sie auf das Plug-in, um es Ihrer Pipeline hinzuzufügen.

  3. Ziehen Sie einen Verbindungspfeil vom Knoten Cloud Storage auf den Knoten Entfernen.

    Verbinden Sie die beiden Knoten.

  4. Halten Sie den Mauszeiger über den Knoten Redact und klicken Sie auf Attribute.

    1. Legen Sie Benutzerdefinierte Vorlage auf Yes fest.

    2. Geben Sie im Feld Vorlagen-ID die ID der benutzerdefinierten Vorlage ein, die Sie erstellt.

    3. Wenden Sie im Feld Abgleich die Option Maskierung auf Benutzerdefinierte Vorlage in Notes an.

    4. Geben Sie im Feld Masking Character (Maskierungszeichen) den Wert # ein.

      Maske.

    5. Klicken Sie auf Validieren, um nach Fehlern zu suchen.

    6. Klicken Sie auf Schließen.

Ausgabedaten speichern

Speichern Sie die Ergebnisse Ihrer Pipeline in einer Cloud Storage-Datei.

  1. Klicken Sie auf der Seite Studio auf das Menü Sink, um es zu maximieren.

  2. Klicken Sie auf Cloud Storage.

  3. Ziehen Sie einen Verbindungspfeil vom Knoten Redact zum Knoten Cloud Storage2.

    Verbinden Sie den Knoten „Entfernen“ mit dem zweiten Cloud Storage-Knoten.

  4. Bewegen Sie den Mauszeiger auf den Knoten Cloud Storage2 und klicken Sie auf Attribute.

    1. Geben Sie im Feld Referenzname einen Namen ein.

    2. Geben Sie im Feld Pfad den Pfad eines Cloud Storage-Buckets ein, in dem die Pipelineergebnisse gespeichert werden sollen. Cloud Data Fusion erstellt für Sie erstellen. Beachten Sie die Benennungsrichtlinien für Buckets.

    3. Wählen Sie im Feld Format die Option CSV aus.

    4. Klicken Sie auf Validieren, um sicherzustellen, dass keine Fehler vorliegen.

    5. Klicken Sie auf Schließen.

Pipeline im Vorschaumodus ausführen

Führen Sie die Pipeline im Vorschaumodus aus, bevor Sie sie bereitstellen.

  1. Klicken Sie auf Preview und dann auf Run.

    Pipeline ausführen.

    Wenn Sie auf Ausführen klicken, wird der Pipelinestatus angezeigt, der mit Wird gestartet, wechselt dann zu Stopp und dann zu Ausführen.

  2. Klicken Sie nach Abschluss des Vorschaudurchlaufs auf dem Redact-Knoten auf Vorschau der Daten anzeigen, um eine Gegenüberstellung der Eingabe- und Ausgabedaten anzusehen. Prüfen , dass Telefonnummern mit dem Zeichen # maskiert wurden.

    Prüfen Sie, ob die Telefonnummern maskiert sind.

Einen weiteren Datentyp entfernen

Beim Untersuchen der Ergebnisse des Vorschaudurchlaufs sehen Sie, dass die Spalte Hinweise weiterhin vertrauliche Informationen enthält, nämlich E-Mail-Adressen. Gehen Sie zurück und bearbeiten Sie die Cloud DLP-Vorlage, um auch E-Mail-Adressen zu entfernen.

  1. Öffnen Sie in der Google Cloud Console die Seite „Cloud DLP“.

    Zur Seite „Cloud DLP“

  2. Wählen Sie auf dem Tab Konfiguration Ihre Vorlage aus.

  3. Klicken Sie auf Bearbeiten.

  4. Klicken Sie auf Infotypen verwalten.

  5. Verwenden Sie auf dem Tab Built-in den Filter, um nach "OR" "email address" zu suchen.

    Filter.

  6. Wählen Sie alle aus und klicken Sie auf Done.

  7. Klicken Sie auf Speichern.

  8. Führen Sie Ihre Pipeline noch einmal im Vorschaumodus aus. Cloud Data Fusion verwendet automatisch die aktualisierte Cloud DLP-Vorlage.

  9. Prüfen Sie, ob die Telefonnummern und E-Mail-Adressen mit dem Zeichen # maskiert sind.

    Prüfen Sie, ob die Daten maskiert sind.

Pipeline bereitstellen und ausführen

  1. Vergewissern Sie sich, dass der Previewmodus deaktiviert ist.

  2. Klicken Sie auf Speichern. Wenn Sie auf Save klicken, werden Sie aufgefordert, der Pipeline einen Namen zu geben. Klicken Sie dann auf OK.

  3. Klicken Sie auf Bereitstellen.

  4. Klicken Sie nach Abschluss der Bereitstellung auf Ausführen. Die Ausführung der Pipeline kann einige Minuten dauern. In der Zwischenzeit können Sie den Status der Pipelineübergang von Bereitstellung, Start und Aktiv zu Aufheben der Bereitstellung in Erfolgreich verfolgen.

Ergebnisse aufrufen

  1. Wechseln Sie in der Google Cloud Console zur Cloud Storage-Seite.

    Cloud Storage aufrufen

  2. Navigieren Sie im Storage-Browser zum Senken-Cloud Storage-Bucket, den Sie in den Attributen des Senken-Cloud Storage-Plug-ins angegeben haben.

  3. Klicken Sie unter Link-URL auf den Link zum Herunterladen der CSV-Datei mit den Ergebnissen. Vergewissern Sie sich, dass die Telefonnummern und E-Mail-Adressen mit Das Zeichen #.

    Prüfen Sie, ob die Daten maskiert sind.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung, um die Cloud Data Fusion-Instanz zu löschen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Nächste Schritte