Vertrauliche Daten entfernen

In dieser Anleitung erfahren Sie, wie Sie mit dem Cloud Data Fusion-Plug-in für Cloud DLP vertrauliche Daten entfernen.

Szenario

Stellen Sie sich das folgende Szenario vor, in dem einige vertrauliche Kundendaten entfernt werden müssen:

Ihr Supportteam dokumentiert die Details jedes Supportfalls, der in einem Support-Ticket bearbeitet wird. Alle Informationen im Support-Ticket werden in eine CSV-Datei geladen. Die Supporttechniker sollten keine Kundendaten dokumentieren, die als vertraulich eingestuft werden, manchmal jedoch versehentlich.

Sie müssen die CSV-Datei durchgehen und alle Telefonnummern ausblenden. Erstellen Sie eine Cloud Data Fusion-Pipeline, die vertrauliche Kundendaten mithilfe des Cloud DLP-Plug-ins entfernt.

In dieser Anleitung erstellen Sie eine Pipeline, die Folgendes ausführt:

  • Entfernt Telefonnummern von Kunden durch Maskieren mit dem #-Zeichen.
  • Speichert die maskierten vertraulichen Daten und die nicht vertraulichen Daten in einem Cloud Storage-Bucket.

Lernziele

  • Cloud Data Fusion mit einer Cloud Storage-Quelle verbinden.
  • Cloud DLP-Plug-in bereitstellen
  • Benutzerdefinierte Cloud DLP-Vorlage erstellen.
  • Redact-Transformations-Plug-in verwenden, um vertrauliche Kundendaten zu maskieren
  • Ausgabedaten in Cloud Storage schreiben

Kosten

In dieser Anleitung werden die folgenden kostenpflichtigen Komponenten von Google Cloud verwendet:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.

  4. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  5. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.

  6. Cloud Data Fusion, Cloud Storage, BigQuery, and Cloud Dataproc APIs aktivieren.

    Aktivieren Sie die APIs

  7. Erstellen Sie eine Cloud Data Fusion-Instanz.

Cloud DLP-Berechtigungen abrufen

  1. Rufen Sie in der Cloud Console die Seite „IAM“ auf.

    IAM-Seite öffnen

  2. Suchen Sie in der Berechtigungstabelle in der Spalte Hauptkonto das Dienstkonto mit dem Format service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Klicken Sie rechts neben dem Dienstkonto auf die Schaltfläche bearbeiten.

  4. Klicken Sie auf Weitere Rolle hinzufügen.

  5. Klicken Sie auf das Drop-down-Menü, das daraufhin angezeigt wird.

  6. Wählen Sie über die Suchleiste DLP-Administrator aus.

  7. Klicken Sie auf Speichern.

  8. Prüfen Sie, ob DLP-Administrator in der Spalte Rolle angezeigt wird.

Wenn Sie Cloud Data Fusion verwenden, verwenden Sie sowohl die Cloud Console als auch die separate Cloud Data Fusion-UI. In der Cloud Console können Sie ein Cloud Console-Projekt erstellen sowie Cloud Data Fusion-Instanzen erstellen und löschen. In der Benutzeroberfläche von Cloud Data Fusion können Sie die verschiedenen Seiten wie Studio oder Wrangler nutzen, um Features von Cloud Data Fusion zu nutzen.

  1. Öffnen Sie in der Cloud Console die Seite Instanzen.

    Zur Seite „Instanzen“

  2. Klicken Sie in der Spalte Aktionen für die Instanz auf den Link Instanz aufrufen. Die Benutzeroberfläche von Cloud Data Fusion wird in einem neuen Browsertab geöffnet.

Pipeline erstellen

Erstellen Sie eine Pipeline zur Entfernung vertraulicher Kundendaten. Die von Ihnen erstellte Pipeline führt folgende Aufgaben aus:

  • Die Eingabedaten werden mit dem Cloud Storage-Quell-Plug-in gelesen.
  • Stellt das Cloud DLP-Plug-in vom aus Hub bereit und wendet das Redact-Transformations-Plug-in an.
  • Schreibt die Ausgabedaten mit einem Cloud Storage-Senken-Plug-in.

Kundendaten laden

In dieser Anleitung wird das Eingabe-Dataset CallCenterRecords.csv verwendet, das in einem öffentlich verfügbaren Cloud Storage-Bucket bereitgestellt wird.

  1. Klicken Sie in der Cloud Data Fusion-UI auf das Menü und rufen Sie die Studio-Seite auf.

  2. Klicken Sie im Menü Quelle auf das Plug-in GCS.

    Image

  3. Halten Sie den Mauszeiger auf den angezeigten GCS -Knoten und klicken Sie auf Attribute.

  4. Geben Sie unter Referenzname einen Referenznamen ein.

  5. Geben Sie unter Pfad gs://datafusion-sample-datasets/CallCenterRecords.csv ein.

  6. Wählen Sie unter Format die Option CSV aus.

  7. Entfernen Sie unter Ausgabeschema die Felder body und offset. Klicken Sie auf +, um die folgenden Felder hinzuzufügen:

    • Datum
    • Bank
    • Status
    • Zip
    • Hinweise
  8. Alle Datentypen müssen vom Typ String sein. Klicken Sie zum Ändern des Typs auf den Typ und wählen Sie string aus dem angezeigten Drop-down-Menü aus.

    Image

  9. Klicken Sie auf Validieren, um sicherzustellen, dass keine Fehler vorliegen.

  10. Klicken Sie rechts oben im Dialogfeld auf die Schaltfläche X.

Entfernen Sie vertrauliche Daten

Das Redact-Transformations-Plug-in identifiziert vertrauliche Datensätze in Ihrem Eingabedatenstrom und wendet von Ihnen definierte Transformationen auf diese Datensätze an. Ein Datensatz gilt als vertraulich, wenn er mit vordefinierten Cloud DLP-Filtern oder einer von Ihnen definierten benutzerdefinierten Vorlage übereinstimmt.

In dieser Anleitung möchten Sie die Telefonnummern von Kunden entfernen, die einige technische Mitarbeiter in Ihrem Team versehentlich bemerkt haben. Sie haben die vertraulichen Informationen im Abschnitt Hinweise der Support-Tickets eingegeben, der in der CSV-Datei in der Spalte Hinweise angezeigt wird. Sie erstellen eine benutzerdefinierte Cloud DLP-Vorlage und geben dann die Vorlagen-ID im Menü „Eigenschaften“ des Redact-Transformation-Plug-ins an.

Cloud DLP-Plug-in bereitstellen

  1. Klicken Sie in der Cloud Data Fusion-Benutzeroberfläche rechts oben auf Hub.

  2. Klicken Sie auf das Plug-in Schutz vor Datenverlust.

  3. Klicken Sie auf Deploy.

  4. Klicken Sie auf Beenden.

  5. Klicken Sie auf X in der oberen rechten Ecke der Cloud DLP | Deploy Dialogfeld.

  6. Klicken Sie auf die Schaltfläche X, um den Hub zu verlassen.

Benutzerdefinierte Vorlage erstellen

  1. Öffnen Sie Cloud DLP in der Cloud Console.

    Cloud DLP-Seite öffnen

  2. Wählen Sie im Menü Erstellen die Option Vorlage aus.Image

  3. Geben Sie unter Vorlage definieren im Feld Vorlagen-ID eine ID für Ihre Vorlage ein. Sie benötigen die Vorlagen-ID später in der Anleitung.

  4. Klicken Sie auf Weiter.

  5. Klicken Sie unter Erkennung konfigurieren auf Infotypen verwalten.

  6. Verwenden Sie auf dem Tab Integriert den Filter, um nach "Telefonnummer" zu suchen.

    Image

  7. Wählen Sie PHONE_NUMBER aus.

  8. Klicken Sie auf Fertig.

  9. Klicken Sie auf Erstellen.

Weitere Informationen zum Erstellen von Cloud DLP-Vorlagen

Redact-Transformation anwenden

  1. Klicken Sie in der Cloud Data Fusion-UI auf der Seite Studio auf das Menü Transform, um es zu erweitern.

  2. Klicken Sie auf das Transformations-Plug-in Redact.

    Image

  3. Ziehen Sie einen Verbindungspfeil vom Knoten GCS zum Knoten Redact.

    Image

  4. Halten Sie den Mauszeiger über den Knoten Redact und klicken Sie auf Properties.

    1. Setzen Sie Properties auf Yes.

    2. Geben Sie unter Template ID die Vorlagen-ID der von Ihnen erstellten benutzerdefinierten Vorlage ein.

    3. Wenden Sie unter Matching die Option Masking auf die Custom template in Notes an.

    4. Geben Sie unter Masking character # ein.

      Image

    5. Klicken Sie auf Validieren, um sicherzustellen, dass keine Fehler vorliegen.

    6. Klicken Sie rechts oben im Dialogfeld auf die Schaltfläche X.

Ausgabedaten speichern

Speichern Sie die Ergebnisse Ihrer Pipeline in einer Cloud Storage-Datei.

  1. Klicken Sie in der Cloud Data Fusion-UI auf der Seite Studio auf das Menü Sink, um es zu maximieren.

  2. Klicken Sie auf GCS.

  3. Ziehen Sie einen Verbindungspfeil vom Knoten Redact zum Knoten GCS2.

    Image

  4. Halten Sie den Mauszeiger auf den Knoten GCS2 und klicken Sie auf Properties.

    1. Geben Sie unter Referenzname einen Referenznamen ein.

    2. Geben Sie unter Pfad den Pfad eines Cloud Storage-Buckets ein, in dem die Pipelineergebnisse gespeichert werden sollen. Cloud Data Fusion erstellt den Cloud Storage-Bucket. Beachten Sie die Benennungsrichtlinien für Buckets.

    3. Wählen Sie unter Format die Option CSV aus.

      Image

    4. Klicken Sie auf Validieren, um sicherzustellen, dass keine Fehler vorliegen.

    5. Klicken Sie rechts oben im Dialogfeld auf die Schaltfläche X.

Pipeline im Vorschaumodus ausführen

Führen Sie die Pipeline im Vorschaumodus aus, bevor Sie sie bereitstellen.

  1. Klicken Sie auf Preview und dann auf Run.

    Image

    Die Schaltfläche Run zeigt den Pipelinestatus an, der mit Starting beginnt, dann zu Stopp und dann zu Run wechselt.

  2. Klicken Sie nach Abschluss des Vorschaudurchlaufs auf dem Redact-Knoten auf Vorschau der Daten anzeigen, um eine Gegenüberstellung der Eingabe- und Ausgabedaten anzusehen. Prüfen Sie, ob Telefonnummern mit dem Zeichen # maskiert wurden.

    Image

Einen weiteren Datentyp entfernen

Beim Untersuchen der Ergebnisse des Vorschaudurchlaufs sehen Sie, dass die Spalte Hinweise weiterhin vertrauliche Informationen enthält, nämlich E-Mail-Adressen. Gehen Sie zurück und bearbeiten Sie die Cloud DLP-Vorlage, um auch E-Mail-Adressen zu entfernen.

  1. Rufen Sie in der Cloud Console die Seite „Cloud DLP“ auf.

    Cloud DLP-Seite öffnen

  2. Wählen Sie auf dem Tab Konfiguration Ihre Vorlage aus.

  3. Klicken Sie auf Bearbeiten.

  4. Klicken Sie auf Infotypen verwalten.

  5. Verwenden Sie auf dem Tab Built-in den Filter, um nach "OR" "email address" zu suchen.

    Image

  6. Wählen Sie alle aus und klicken Sie auf Done.

  7. Klicken Sie auf Speichern.

  8. Führen Sie Ihre Pipeline noch einmal im Vorschaumodus aus. Cloud Data Fusion verwendet automatisch die aktualisierte Cloud DLP-Vorlage.

  9. Prüfen Sie, ob die Telefonnummern und E-Mail-Adressen mit dem Zeichen # maskiert sind.

    Image

Pipeline bereitstellen und ausführen

  1. Vergewissern Sie sich, dass der Previewmodus deaktiviert ist.

  2. Klicken Sie auf Speichern. Wenn Sie auf Save klicken, werden Sie aufgefordert, der Pipeline einen Namen zu geben. Klicken Sie dann auf OK.

    Image

  3. Klicken Sie auf Deploy.

  4. Klicken Sie nach Abschluss der Bereitstellung auf Ausführen. Die Ausführung der Pipeline kann einige Minuten dauern. In der Zwischenzeit können Sie den Status der Pipelineübergang von Bereitstellung, Start und Aktiv zu Aufheben der Bereitstellung in Erfolgreich verfolgen.

Ergebnisse aufrufen

  1. Rufen Sie in der Cloud Console die Seite „Cloud Storage“ auf.

    Cloud Storage-Seite öffnen

  2. Navigieren Sie im Storage-Browser zum Senken-Cloud Storage-Bucket, den Sie in den Attributen des Senken-Cloud Storage-Plug-ins angegeben haben.

  3. Klicken Sie unter Link-URL auf den Link zum Herunterladen der CSV-Datei mit den Ergebnissen. Prüfen Sie, ob die Telefonnummern und E-Mail-Adressen mit dem Zeichen # maskiert sind.

    Image

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung, um die Cloud Data Fusion-Instanz zu löschen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Weitere Informationen