Vertrauliche Daten entfernen

In dieser Anleitung erfahren Sie, wie Sie mit dem Cloud Data Fusion-Plug-in für Cloud DLP vertrauliche Daten entfernen.

Szenario

Stellen Sie sich das folgende Szenario vor, in dem einige vertrauliche Kundendaten entfernt werden müssen:

Ihr Supportteam dokumentiert die Details jedes Supportfalls, der in einem Support-Ticket bearbeitet wird. Alle Informationen im Support-Ticket werden in eine CSV-Datei geladen. Die Supporttechniker sollten keine Kundendaten dokumentieren, die als vertraulich eingestuft werden, manchmal jedoch versehentlich.

Sie müssen die CSV-Datei durchgehen und alle Telefonnummern ausblenden. Erstellen Sie eine Cloud Data Fusion-Pipeline, die vertrauliche Kundendaten mithilfe des Cloud DLP-Plug-ins entfernt.

In dieser Anleitung erstellen Sie eine Pipeline, die Folgendes ausführt:

  • Entfernt Telefonnummern von Kunden durch Maskieren mit dem #-Zeichen.
  • Speichert die maskierten vertraulichen Daten und die nicht vertraulichen Daten in einem Cloud Storage-Bucket.

Ziele

  • Cloud Data Fusion mit einer Cloud Storage-Quelle verbinden.
  • Cloud DLP-Plug-in bereitstellen
  • Benutzerdefinierte Cloud DLP-Vorlage erstellen.
  • Redact-Transformations-Plug-in verwenden, um vertrauliche Kundendaten zu maskieren
  • Ausgabedaten in Cloud Storage schreiben

Kosten

In dieser Anleitung werden kostenpflichtige Komponenten von Google Cloud verwendet, darunter:

Sie können mithilfe des Preisrechners die Kosten für Ihre voraussichtliche Nutzung kalkulieren. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. Cloud Data Fusion, Cloud Storage, BigQuery, and Cloud Dataproc APIs aktivieren.

    Aktivieren Sie die APIs

  5. Erstellen Sie eine Cloud Data Fusion-Instanz.

Cloud DLP-Berechtigungen abrufen

  1. Rufen Sie in der Cloud Console die Seite "IAM" auf.

    IAM-Seite öffnen

  2. Suchen Sie in der Berechtigungstabelle in der Spalte Mitglied das Dienstkonto mit dem Format service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Klicken Sie rechts neben dem Dienstkonto auf die Schaltfläche bearbeiten.

  4. Klicken Sie auf Weitere Rolle hinzufügen.

  5. Klicken Sie auf das Drop-down-Menü, das daraufhin angezeigt wird.

  6. Wählen Sie mithilfe der Suchleiste DLP-Administrator aus.

  7. Klicken Sie auf Speichern.

  8. Prüfen Sie, ob in der Spalte Rolle der Eintrag DLP-Administrator angezeigt wird.

Bei Verwendung von Cloud Data Fusion verwenden Sie sowohl die Cloud Console als auch die separate UI von Cloud Data Fusion. In der Cloud Console können Sie ein Cloud Console-Projekt erstellen und Cloud Data Fusion-Instanzen erstellen und löschen. In der Benutzeroberfläche von Cloud Data Fusion können Sie die verschiedenen Seiten wie Studio oder Wrangler verwenden, um Cloud Data Fusion-Features zu verwenden.

  1. Öffnen Sie in der Cloud Console die Seite Instanzen.

    Zur Seite "Instanzen"

  2. Klicken Sie in der Spalte Aktionen für die Instanz auf den Link Instanz aufrufen. Die Benutzeroberfläche von Cloud Data Fusion wird in einem neuen Browsertab geöffnet.

Pipeline erstellen

Erstellen Sie eine Pipeline zur Entfernung vertraulicher Kundendaten. Die von Ihnen erstellte Pipeline führt folgende Aufgaben aus:

  • Die Eingabedaten werden mit dem Cloud Storage-Quell-Plug-in gelesen.
  • Stellt das Cloud DLP-Plug-in vom aus Hub bereit und wendet das Redact-Transformations-Plug-in an.
  • Schreibt die Ausgabedaten mit einem Cloud Storage-Senken-Plug-in.

Kundendaten laden

In dieser Anleitung wird das Eingabe-Dataset CallCenterRecords.csv verwendet, das in einem öffentlich verfügbaren Cloud Storage-Bucket bereitgestellt wird.

  1. Klicken Sie in der Cloud Data Fusion-UI auf das Menü und rufen Sie die Studio-Seite auf.

  2. Klicken Sie im Menü Quelle auf das Plug-in GCS.

    Bild

  3. Bewegen Sie den Mauszeiger auf den angezeigten GCS-Knoten und klicken Sie auf Eigenschaften.

  4. Geben Sie unter Referenzname einen Referenznamen ein.

  5. Geben Sie unter Pfad gs://datafusion-sample-datasets/CallCenterRecords.csv ein.

  6. Wählen Sie unter Format die Option csv aus.

  7. Geben Sie unter Ausgabeschema unter Name Folgendes ein. Klicken Sie dazu für jeden Datentyp auf die Schaltfläche :

    • Date
    • Bank
    • State
    • Zip
    • Hinweise
  8. Alle Datentypen müssen vom Typ String sein. Um den Typ zu ändern, klicken Sie auf Typ und wählen Sie String aus dem Drop-down-Menü aus.

  9. Klicken Sie für jeden Datentyp das Kästchen Null an. Dadurch wird sichergestellt, dass die Pipeline nicht fehlschlägt, wenn ein Nullwert (leer) erkannt wird.

    Bild

  10. Klicken Sie auf Validieren, um sicherzustellen, dass keine Fehler vorliegen.

  11. Klicken Sie rechts oben im Dialogfeld auf die Schaltfläche X.

Entfernen Sie vertrauliche Daten

Das Redact-Transformations-Plug-in identifiziert vertrauliche Datensätze in Ihrem Eingabedatenstrom und wendet von Ihnen definierte Transformationen auf diese Datensätze an. Ein Datensatz gilt als vertraulich, wenn er mit vordefinierten Cloud DLP-Filtern oder einer von Ihnen definierten benutzerdefinierten Vorlage übereinstimmt.

In dieser Anleitung möchten Sie die Telefonnummern von Kunden entfernen, die einige technische Mitarbeiter in Ihrem Team versehentlich bemerkt haben. Die vertraulichen Informationen wurden im Abschnitt Notes der Supporttickets angegeben, der in der CSV-Datei in der Spalte Notes angezeigt wird. Sie erstellen eine benutzerdefinierte Cloud DLP-Vorlage und geben dann die Vorlagen-ID im Menü „Eigenschaften“ des Redact-Transformation-Plug-ins an.

Cloud DLP-Plug-in bereitstellen

  1. Klicken Sie in der Cloud Data Fusion-Benutzeroberfläche rechts oben auf Hub.

  2. Klicken Sie auf das Plug-in Schutz vor Datenverlust.

  3. Klicken Sie auf Deploy.

  4. Klicken Sie auf Beenden.

  5. Klicken Sie rechts oben in Cloud DLP | auf die Schaltfläche X. Bereitstellen.

  6. Klicken Sie auf die Schaltfläche X, um den Hub zu verlassen.

Benutzerdefinierte Vorlage erstellen

  1. Öffnen Sie in der Cloud Console Cloud DLP.

    Zur Seite „Cloud DLP“

  2. Wählen Sie im Menü Erstellen die Option Vorlage aus. Bild

  3. Geben Sie unter Vorlage definieren im Feld Vorlagen-ID eine ID für Ihre Vorlage ein. Sie benötigen die Vorlagen-ID später in der Anleitung.

  4. Klicken Sie auf Weiter.

  5. Klicken Sie unter Erkennung konfigurieren auf Infotypen verwalten.

  6. Verwenden Sie auf dem Tab Integriert den Filter, um nach "Telefonnummer" zu suchen.

    Bild

  7. Wählen Sie PHONE_NUMBER aus.

  8. Klicken Sie auf Fertig.

  9. Klicken Sie auf Erstellen.

Weitere Informationen zum Thema Cloud DLP-Vorlagen erstellen

Redact-Transformation anwenden

  1. Kehren Sie zur Benutzeroberfläche von Cloud Data Fusion zurück. Klicken Sie dann auf der Seite Studio auf das Menü Transform (Transformation).

  2. Klicken Sie auf das Transformations-Plug-in Redact.

    Bild

  3. Ziehen Sie einen Verbindungspfeil vom Knoten GCS zum Knoten Entfernen.

    Bild

  4. Halten Sie den Mauszeiger über den Knoten Entfernen und klicken Sie auf Eigenschaften.

    1. Legen Sie Benutzerdefinierte Vorlage auf Ja fest.

    2. Geben Sie unter Template ID die Vorlagen-ID der von Ihnen erstellten benutzerdefinierten Vorlage ein.

    3. Weniger alsZuordnung, anwendenMaskieren anBenutzerdefinierte Vorlage innerhalbAnmerkungen auf Ihrem Mobilgerät.

    4. Geben Sie unter Maskierungszeichen # ein.

      Bild

    5. Klicken Sie auf Validieren, um sicherzustellen, dass keine Fehler vorliegen.

    6. Klicken Sie rechts oben im Dialogfeld auf die Schaltfläche X.

Ausgabedaten speichern

Speichern Sie die Ergebnisse Ihrer Pipeline in einer Cloud Storage-Datei.

  1. Klicken Sie in der Cloud Data Fusion-Benutzeroberfläche auf der Seite Studio auf das Menü Senke.

  2. Klicken Sie auf GCS.

  3. Ziehen Sie einen Verbindungspfeil vom Knoten Entfernen zum Knoten GCS2.

    Bild

  4. Bewegen Sie den Mauszeiger auf den Knoten GCS2 und klicken Sie auf Eigenschaften.

    1. Geben Sie unter Referenzname einen Referenznamen ein.

    2. Geben Sie unter Pfad den Pfad eines Cloud Storage-Buckets ein, in dem die Pipelineergebnisse gespeichert werden sollen. Cloud Data Fusion erstellt den Cloud Storage-Bucket. Beachten Sie die Benennungsrichtlinien für Buckets.

    3. Wählen Sie unter Format die Option CSV aus.

      Bild

    4. Klicken Sie auf Validieren, um sicherzustellen, dass keine Fehler vorliegen.

    5. Klicken Sie rechts oben im Dialogfeld auf die Schaltfläche X.

Pipeline im Vorschaumodus ausführen

Führen Sie die Pipeline im Vorschaumodus aus, bevor Sie sie bereitstellen.

  1. Klicken Sie auf Vorschau und dann auf Ausführen.

    Bild

    Die SeiteAusführen zeigt den Pipelinestatus an, der mitWird gestartet und kehrt dann zuAnhalten und dannAusführen auf Ihrem Mobilgerät.

  2. Wenn die Vorschau abgeschlossen ist, klicken Sie auf dem Knoten Entfernen auf Vorschaudaten, um die Eingabe- und Ausgabedaten direkt zu vergleichen. Prüfen Sie, ob die Telefonnummern mit dem Zeichen # maskiert wurden.

    Bild

Einen weiteren Datentyp entfernen

Beim Untersuchen der Ergebnisse des Vorschaudurchlaufs sehen Sie, dass die Spalte Hinweise weiterhin vertrauliche Informationen enthält, nämlich E-Mail-Adressen. Gehen Sie zurück und bearbeiten Sie die Cloud DLP-Vorlage, um auch E-Mail-Adressen zu entfernen.

  1. Öffnen Sie in der Cloud Console die Seite Cloud DLP.

    Zur Seite „Cloud DLP“

  2. Wählen Sie auf dem Tab Konfiguration Ihre Vorlage aus.

  3. Klicken Sie auf Bearbeiten.

  4. Klicken Sie auf Infotypen verwalten.

  5. Verwenden Sie auf dem Tab Built-in den Filter, um nach "OR" "email address" zu suchen.

    Bild

  6. Wählen Sie alle aus und klicken Sie auf Done.

  7. Klicken Sie auf Speichern.

  8. Führen Sie Ihre Pipeline noch einmal im Vorschaumodus aus. Cloud Data Fusion verwendet automatisch die aktualisierte Cloud DLP-Vorlage.

  9. Prüfen Sie, ob die Telefonnummern und E-Mail-Adressen mit dem Zeichen # maskiert sind.

    Bild

Pipeline bereitstellen und ausführen

  1. Vergewissern Sie sich, dass der Previewmodus deaktiviert ist.

  2. Klicken Sie auf Speichern. Wenn Sie auf Speichern klicken, werden Sie aufgefordert, eine Pipeline zu benennen. Klicken Sie dann auf OK.

    Bild

  3. Klicken Sie auf Deploy.

  4. Klicken Sie nach Abschluss der Bereitstellung auf Ausführen. Die Ausführung der Pipeline kann einige Minuten dauern. Während Sie warten, können Sie dieStatusStatus“ des Pipeline-Übergangs vonWird bereitgestellt... inWird gestartet inLaufsport in Aufheben der Bereitstellung inErfolgreich auf Ihrem Mobilgerät.

Ergebnisse aufrufen

  1. Rufen Sie in der Cloud Console die Seite "Storage" auf.

    Zur Seite „Cloud Storage“

  2. Navigieren Sie im Storage-Browser zum Senken-Cloud Storage-Bucket, den Sie in den Attributen des Senken-Cloud Storage-Plug-ins angegeben haben.

  3. Klicken Sie unter Link-URL auf den Link zum Herunterladen der CSV-Datei mit den Ergebnissen. Prüfen Sie, ob die Telefonnummern und E-Mail-Adressen mit dem Zeichen # maskiert wurden.

    Image

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung, um die Cloud Data Fusion-Instanz zu löschen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte