In dieser Anleitung erfahren Sie, wie Sie mit dem Cloud Data Fusion-Plug-in für Cloud DLP vertrauliche Daten entfernen.
Szenario
Stellen Sie sich das folgende Szenario vor, in dem einige vertrauliche Kundendaten muss entfernt werden:
Ihr Supportteam dokumentiert die Details jedes Supportfalls, der in einem Support-Ticket bearbeitet wird. Alle Informationen im Support-Ticket werden in eine CSV-Datei geladen. Die Supporttechniker sollten keine Kundendaten dokumentieren, die als vertraulich eingestuft werden, manchmal jedoch versehentlich.
Sie müssen die CSV-Datei durchgehen und alle Telefonnummern ausblenden. Erstellen Sie eine Cloud Data Fusion-Pipeline, die vertrauliche Kundendaten mithilfe des Cloud DLP-Plug-ins entfernt.
In dieser Anleitung erstellen Sie eine Pipeline, die Folgendes ausführt:
- Die Telefonnummern von Kunden werden entfernt, indem sie mit dem Zeichen
#
maskiert werden. - Speichert die maskierten vertraulichen Daten und die nicht vertraulichen Daten in einem Cloud Storage-Bucket.
Ziele
- Cloud Data Fusion mit einer Cloud Storage-Quelle verbinden.
- Cloud DLP-Plug-in bereitstellen
- Benutzerdefinierte Cloud DLP-Vorlage erstellen.
- Redact-Transformations-Plug-in verwenden, um vertrauliche Kundendaten zu maskieren
- Ausgabedaten in Cloud Storage schreiben
Kosten
In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Hinweis
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
- Erstellen Sie eine Cloud Data Fusion-Instanz.
Cloud DLP-Berechtigungen abrufen
Öffnen Sie in der Google Cloud Console die Seite "IAM".
Suchen Sie in der Berechtigungstabelle in der Spalte Hauptkonto das Dienstkonto mit dem Format
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
.Klicken Sie auf edit Bearbeiten.
Klicken Sie auf Weitere Rolle hinzufügen.
Wählen Sie mithilfe der Suchleiste DLP-Administrator aus.
Klicken Sie auf Speichern.
Prüfen Sie, ob DLP-Administrator in der Spalte Rolle angezeigt wird.
Benutzeroberfläche von Cloud Data Fusion aufrufen
Bei Verwendung von Cloud Data Fusion verwenden Sie sowohl die Google Cloud Console als auch die separate Cloud Data Fusion-UI. In der Google Cloud Console kann ein Google Cloud Console-Projekt erstellen sowie Cloud Data Fusion-Instanzen. In der Benutzeroberfläche von Cloud Data Fusion können Sie die verschiedenen Seiten wie Studio oder Wrangler nutzen, um Features von Cloud Data Fusion zu nutzen.
Öffnen Sie in der Google Cloud Console die Seite Instanzen.
Klicken Sie in der Spalte Aktionen für die Instanz auf den Link Instanz aufrufen. Die Benutzeroberfläche von Cloud Data Fusion wird in einem neuen Browsertab geöffnet.
Pipeline erstellen
Erstellen Sie eine Pipeline zur Entfernung vertraulicher Kundendaten. Die von Ihnen erstellte Pipeline führt folgende Aufgaben aus:
- Die Eingabedaten werden mit dem Cloud Storage-Quell-Plug-in gelesen.
- Stellt das Cloud DLP-Plug-in vom Hub aus bereit.
- Schreibt die Ausgabedaten mit einem Cloud Storage-Senken-Plug-in.
Kundendaten laden
In dieser Anleitung wird das Eingabe-Dataset CallCenterRecords.csv
verwendet, das in einem öffentlich verfügbaren Cloud Storage-Bucket bereitgestellt wird.
Öffnen Sie Ihre Cloud Data Fusion-Instanz und klicken Sie auf menu Menü > Studio.
Klicken Sie im Menü Quelle auf das Plug-in Cloud Storage.
Klicken Sie auf dem Knoten Cloud Storage auf Attribute.
Geben Sie im Feld Referenzname einen Namen ein.
Geben Sie im Feld Pfad
gs://datafusion-sample-datasets/CallCenterRecords.csv
ein.Wählen Sie im Feld Format die Option
CSV
aus.Löschen Sie unter Ausgabeschema die Felder offset und body. Klicken Sie auf
Hinzufügen und geben Sie die folgenden Felder ein:- Datum
- Bank
- State
- Zip
- Hinweise
Klicken Sie auf Validieren, um nach Fehlern zu suchen.
Klicken Sie auf
Schließen.
Entfernen Sie sensible Daten
Das Cloud DLP-Redact-Plug-in identifiziert vertrauliche Datensätze in Ihrem Eingabedatenstrom und wendet von Ihnen definierte Transformationen auf diese Datensätze an. Ein Datensatz von Daten gelten als sensibel, wenn sie mit dem vordefinierten Cloud DLP übereinstimmen ausgewählten Filtern oder einer benutzerdefinierten Vorlage.
In dieser Anleitung möchten Sie die Telefonnummern von Kunden entfernen, die einige technische Mitarbeiter in Ihrem Team versehentlich bemerkt haben. Sie haben die vertraulichen Informationen im Abschnitt Hinweise der Support-Tickets eingegeben, der in der CSV-Datei in der Spalte Hinweise angezeigt wird. Sie erstellen eine benutzerdefinierte Cloud DLP-Vorlage und geben dann die Vorlagen-ID im Menü „Eigenschaften“ des Plug-ins an.
Cloud DLP-Plug-in bereitstellen
Klicken Sie in Ihrer Cloud Data Fusion-Instanz auf Hub.
Klicken Sie auf das Cloud DLP-Plug-in.
Klicken Sie auf Bereitstellen.
Klicken Sie auf Beenden.
Klicken Sie auf
Schließen, um Cloud DLP zu beenden. Dialogfeld.Klicken Sie auf
Schließen, um den Hub zu verlassen.
Benutzerdefinierte Vorlage erstellen
Öffnen Sie in der Google Cloud Console die Seite „Cloud DLP“.
Wählen Sie im Menü Erstellen die Option Vorlage aus.
Geben Sie im Feld Vorlagen-ID eine ID für Ihre Vorlage ein.
Klicken Sie auf Weiter.
Klicken Sie im Feld Erkennung konfigurieren auf Infotypen verwalten.
Verwenden Sie auf dem Tab Integriert den Filter, um nach "Telefonnummer" zu suchen.
Wählen Sie PHONE_NUMBER aus.
Klicken Sie auf Fertig > Erstellen.
Weitere Informationen zum Thema Cloud DLP-Vorlagen erstellen
Cloud DLP-Redact-Transformation anwenden
Rufen Sie die Seite Studio von Cloud Data Fusion auf und maximieren Sie das Menü Transformieren.
Klicken Sie auf das Cloud DLP-Plug-in Redact.
Ziehen Sie einen Verbindungspfeil vom Knoten Cloud Storage auf den Knoten Entfernen.
Halten Sie den Mauszeiger über den Knoten Redact und klicken Sie auf Attribute.
Legen Sie Benutzerdefinierte Vorlage auf
Yes
fest.Geben Sie im Feld Vorlagen-ID die ID der benutzerdefinierten Vorlage ein, die Sie erstellt.
Wenden Sie im Feld Abgleich die Option Maskierung auf Benutzerdefinierte Vorlage in Notes an.
Geben Sie im Feld Masking Character (Maskierungszeichen) den Wert
#
ein.Klicken Sie auf Validieren, um nach Fehlern zu suchen.
Klicken Sie auf
Schließen.
Ausgabedaten speichern
Speichern Sie die Ergebnisse Ihrer Pipeline in einer Cloud Storage-Datei.
Klicken Sie auf der Seite Studio auf das Menü Sink, um es zu maximieren.
Klicken Sie auf Cloud Storage.
Ziehen Sie einen Verbindungspfeil vom Knoten Redact zum Knoten Cloud Storage2.
Bewegen Sie den Mauszeiger auf den Knoten Cloud Storage2 und klicken Sie auf Attribute.
Geben Sie im Feld Referenzname einen Namen ein.
Geben Sie im Feld Pfad den Pfad eines Cloud Storage-Buckets ein, in dem die Pipelineergebnisse gespeichert werden sollen. Cloud Data Fusion erstellt für Sie erstellen. Beachten Sie die Benennungsrichtlinien für Buckets.
Wählen Sie im Feld Format die Option CSV aus.
Klicken Sie auf Validieren, um sicherzustellen, dass keine Fehler vorliegen.
Klicken Sie auf
Schließen.
Pipeline im Vorschaumodus ausführen
Führen Sie die Pipeline im Vorschaumodus aus, bevor Sie sie bereitstellen.
Klicken Sie auf Preview und dann auf Run.
Wenn Sie auf Ausführen klicken, wird der Pipelinestatus angezeigt, der mit Wird gestartet, wechselt dann zu Stopp und dann zu Ausführen.
Klicken Sie nach Abschluss des Vorschaudurchlaufs auf dem Redact-Knoten auf Vorschau der Daten anzeigen, um eine Gegenüberstellung der Eingabe- und Ausgabedaten anzusehen. Prüfen , dass Telefonnummern mit dem Zeichen
#
maskiert wurden.
Einen weiteren Datentyp entfernen
Beim Untersuchen der Ergebnisse des Vorschaudurchlaufs sehen Sie, dass die Spalte Hinweise weiterhin vertrauliche Informationen enthält, nämlich E-Mail-Adressen. Gehen Sie zurück und bearbeiten Sie die Cloud DLP-Vorlage, um auch E-Mail-Adressen zu entfernen.
Öffnen Sie in der Google Cloud Console die Seite „Cloud DLP“.
Wählen Sie auf dem Tab Konfiguration Ihre Vorlage aus.
Klicken Sie auf Bearbeiten.
Klicken Sie auf Infotypen verwalten.
Verwenden Sie auf dem Tab Built-in den Filter, um nach "OR" "email address" zu suchen.
Wählen Sie alle aus und klicken Sie auf Done.
Klicken Sie auf Speichern.
Führen Sie Ihre Pipeline noch einmal im Vorschaumodus aus. Cloud Data Fusion verwendet automatisch die aktualisierte Cloud DLP-Vorlage.
Prüfen Sie, ob die Telefonnummern und E-Mail-Adressen mit dem Zeichen
#
maskiert sind.
Pipeline bereitstellen und ausführen
Vergewissern Sie sich, dass der Previewmodus deaktiviert ist.
Klicken Sie auf Speichern. Wenn Sie auf Save klicken, werden Sie aufgefordert, der Pipeline einen Namen zu geben. Klicken Sie dann auf OK.
Klicken Sie auf Bereitstellen.
Klicken Sie nach Abschluss der Bereitstellung auf Ausführen. Die Ausführung der Pipeline kann einige Minuten dauern. In der Zwischenzeit können Sie den Status der Pipelineübergang von Bereitstellung, Start und Aktiv zu Aufheben der Bereitstellung in Erfolgreich verfolgen.
Ergebnisse aufrufen
Wechseln Sie in der Google Cloud Console zur Cloud Storage-Seite.
Navigieren Sie im Storage-Browser zum Senken-Cloud Storage-Bucket, den Sie in den Attributen des Senken-Cloud Storage-Plug-ins angegeben haben.
Klicken Sie unter Link-URL auf den Link zum Herunterladen der CSV-Datei mit den Ergebnissen. Vergewissern Sie sich, dass die Telefonnummern und E-Mail-Adressen mit Das Zeichen
#
.
Bereinigen
Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.
Löschen Sie die Cloud Data Fusion-Instanz.
Folgen Sie der Anleitung, um die Cloud Data Fusion-Instanz zu löschen.
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.
So löschen Sie das Projekt:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Nächste Schritte
- Weitere Informationen zu Cloud Data Fusion
- Sehen Sie wie man das Cloud Data Fusion-Plug-in verwendet, um die Redact- und Filter-PII-Transformations-plugins zu erhalten.