Vertrauliche Daten entfernen


In dieser Anleitung erfahren Sie, wie Sie mit dem plugin für Cloud DLP vertrauliche Daten entfernen.

Szenario

Stellen Sie sich das folgende Szenario vor, in dem einige vertrauliche Kundendaten entfernt werden müssen:

Ihr Supportteam dokumentiert die Details jedes Supportfalls, der in einem Support-Ticket bearbeitet wird. Alle Informationen im Support-Ticket werden in eine CSV-Datei geladen. Die Supporttechniker sollten keine Kundendaten dokumentieren, die als vertraulich eingestuft werden, manchmal jedoch versehentlich.

Sie müssen die CSV-Datei durchgehen und alle Telefonnummern ausblenden. Erstellen Sie eine Cloud Data Fusion-Pipeline, die vertrauliche Kundendaten mithilfe des Cloud DLP-Plug-ins entfernt.

In dieser Anleitung erstellen Sie eine Pipeline, die Folgendes ausführt:

  • Entfernt Telefonnummern von Kunden durch die Maskierung mit dem Zeichen #.
  • Speichert die maskierten vertraulichen Daten und die nicht vertraulichen Daten in einem Cloud Storage-Bucket.

Lernziele

  • Cloud Data Fusion mit einer Cloud Storage-Quelle verbinden.
  • Cloud DLP-Plug-in bereitstellen
  • Benutzerdefinierte Cloud DLP-Vorlage erstellen.
  • Redact-Transformations-Plug-in verwenden, um vertrauliche Kundendaten zu maskieren
  • Ausgabedaten in Cloud Storage schreiben

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  5. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  6. Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs aktivieren.

    Aktivieren Sie die APIs

  7. Erstellen Sie eine Cloud Data Fusion-Instanz.

Cloud DLP-Berechtigungen abrufen

  1. Öffnen Sie in der Google Cloud Console die Seite "IAM".

    IAM-Seite öffnen

  2. Suchen Sie in der Berechtigungstabelle in der Spalte Hauptkonto das Dienstkonto mit dem Format service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com.

  3. Klicken Sie auf  Bearbeiten.

  4. Klicken Sie auf Weitere Rolle hinzufügen.

  5. Wählen Sie in der Suchleiste DLP-Administrator aus.

  6. Klicken Sie auf Speichern.

  7. Prüfen Sie, ob DLP-Administrator in der Spalte Rolle angezeigt wird.

Wenn Sie Cloud Data Fusion verwenden, verwenden Sie sowohl die Google Cloud Console als auch die separate Cloud Data Fusion-UI. In der Google Cloud Console können Sie ein Google Cloud Console-Projekt erstellen sowie Cloud Data Fusion-Instanzen erstellen und löschen. In der Benutzeroberfläche von Cloud Data Fusion können Sie die verschiedenen Seiten wie Studio oder Wrangler nutzen, um Features von Cloud Data Fusion zu nutzen.

  1. Öffnen Sie in der Google Cloud Console die Seite Instanzen.

    Zur Seite „Instanzen“

  2. Klicken Sie in der Spalte Aktionen für die Instanz auf den Link Instanz aufrufen. Die Benutzeroberfläche von Cloud Data Fusion wird in einem neuen Browsertab geöffnet.

Pipeline erstellen

Erstellen Sie eine Pipeline zur Entfernung vertraulicher Kundendaten. Die von Ihnen erstellte Pipeline führt folgende Aufgaben aus:

  • Die Eingabedaten werden mit dem Cloud Storage-Quell-Plug-in gelesen.
  • Stellt das Cloud DLP-Plug-in aus dem Hub bereit.
  • Schreibt die Ausgabedaten mit einem Cloud Storage-Senken-Plug-in.

Kundendaten laden

In dieser Anleitung wird das Eingabe-Dataset CallCenterRecords.csv verwendet, das in einem öffentlich verfügbaren Cloud Storage-Bucket bereitgestellt wird.

  1. Öffnen Sie die Cloud Data Fusion-Instanz und klicken Sie auf Menü> > Studio.

  2. Klicken Sie im Menü Quelle auf das Plug-in Cloud Storage.

    Wählen Sie das Plug-in aus.

  3. Klicken Sie im Knoten Cloud Storage auf Eigenschaften.

  4. Geben Sie im Feld Referenzname einen Namen ein.

  5. Geben Sie im Feld Pfad gs://datafusion-sample-datasets/CallCenterRecords.csv ein.

  6. Wählen Sie im Feld Format die Option CSV aus.

  7. Löschen Sie unter Ausgabeschema die Felder offset und body. Klicken Sie auf Hinzufügen und geben Sie die folgenden Felder ein:

    • Datum
    • Bank
    • Status
    • Zip
    • Notes

    Geben Sie die Quell-Properties ein.

  8. Klicken Sie auf Validieren, um nach Fehlern zu suchen.

  9. Klicken Sie auf Schließen.

Entfernen Sie sensible Daten

Das Cloud DLP Redact-Plug-in identifiziert sensible Datensätze im Eingabestream von Daten und wendet von Ihnen definierte Transformationen auf diese Datensätze an. Ein Datensatz gilt als sensibel, wenn er mit den von Ihnen ausgewählten vordefinierten Cloud DLP-Filtern oder einer benutzerdefinierten Vorlage übereinstimmt, die Sie definieren.

In dieser Anleitung möchten Sie die Telefonnummern von Kunden entfernen, die einige technische Mitarbeiter in Ihrem Team versehentlich bemerkt haben. Sie haben die vertraulichen Informationen im Abschnitt Hinweise der Support-Tickets eingegeben, der in der CSV-Datei in der Spalte Hinweise angezeigt wird. Sie erstellen eine benutzerdefinierte Cloud DLP-Vorlage und geben dann die Vorlagen-ID im Eigenschaftenmenü des Plug-ins an.

Cloud DLP-Plug-in bereitstellen

  1. Klicken Sie in der Cloud Data Fusion-Instanz auf Hub.

  2. Klicken Sie auf das Cloud DLP-Plug-in.

  3. Klicken Sie auf Bereitstellen.

  4. Klicken Sie auf Finish (Beenden).

  5. Klicken Sie auf Schließen, um das Cloud DLP-Dialogfeld zu schließen.

  6. Klicken Sie auf Schließen, um den Hub zu verlassen.

Benutzerdefinierte Vorlage erstellen

  1. Rufen Sie in der Google Cloud Console die Seite „Cloud DLP“ auf.

    Zu Cloud DLP

  2. Wählen Sie im Menü Erstellen die Option Vorlage aus.Image

  3. Geben Sie in das Feld Vorlagen-ID eine ID für die Vorlage ein.

  4. Klicken Sie auf Weiter.

  5. Klicken Sie im Feld Erkennung konfigurieren auf infotypes verwalten.

  6. Verwenden Sie auf dem Tab Integriert den Filter, um nach "Telefonnummer" zu suchen.

    Filter.

  7. Wählen Sie PHONE_NUMBER aus.

  8. Klicken Sie auf Fertig > Erstellen.

Weitere Informationen zum Erstellen von Cloud DLP-Vorlagen.

Cloud DLP Redact-Transformation anwenden

  1. Rufen Sie die Cloud Data Fusion-Seite Studio auf und klicken Sie, um das Menü Transformieren zu maximieren.

  2. Klicken Sie auf das Cloud DLP-Plug-in Entfernen.

    Klicken Sie auf das Plug-in, um es Ihrer Pipeline hinzuzufügen.

  3. Ziehen Sie einen Verbindungspfeil vom Knoten Cloud Storage zum Knoten Entfernen.

    Verbinden Sie die beiden Knoten.

  4. Halten Sie den Mauszeiger über den Knoten Redact und klicken Sie auf Attribute.

    1. Legen Sie Benutzerdefinierte Vorlage auf Yes fest.

    2. Geben Sie im Feld Vorlagen-ID die Vorlagen-ID der von Ihnen erstellten benutzerdefinierten Vorlage ein.

    3. Wenden Sie im Feld Abgleich in Notizen auf Benutzerdefinierte Vorlage die Option Maskierung an.

    4. Geben Sie im Feld Maskierungszeichen den Wert # ein.

      Maske.

    5. Klicken Sie auf Validieren, um nach Fehlern zu suchen.

    6. Klicken Sie auf Schließen.

Ausgabedaten speichern

Speichern Sie die Ergebnisse Ihrer Pipeline in einer Cloud Storage-Datei.

  1. Klicken Sie auf der Seite Studio, um das Menü Senke zu maximieren.

  2. Klicken Sie auf Cloud Storage.

  3. Ziehen Sie einen Verbindungspfeil vom Knoten Entfernen zum Knoten Cloud Storage2.

    Verbinden Sie den Redact-Knoten mit dem zweiten Cloud Storage-Knoten.

  4. Bewegen Sie den Mauszeiger auf den Knoten Cloud Storage2 und klicken Sie auf Eigenschaften.

    1. Geben Sie im Feld Referenzname einen Namen ein.

    2. Geben Sie im Feld Pfad den Pfad eines Cloud Storage-Bucket ein, in dem Sie die Pipelineergebnisse speichern möchten. Cloud Data Fusion erstellt den Bucket für Sie. Beachten Sie dabei die Benennungsrichtlinien für Buckets.

    3. Wählen Sie im Feld Format die Option CSV aus.

    4. Klicken Sie auf Validieren, um sicherzustellen, dass keine Fehler vorliegen.

    5. Klicken Sie auf Schließen.

Pipeline im Vorschaumodus ausführen

Führen Sie die Pipeline im Vorschaumodus aus, bevor Sie sie bereitstellen.

  1. Klicken Sie auf Preview und dann auf Run.

    Pipeline ausführen.

    Wenn Sie auf Ausführen klicken, wird der Pipelinestatus angezeigt. Dieser beginnt mit Starten, wechselt dann zu Beenden und anschließend zu Ausführen.

  2. Klicken Sie nach Abschluss des Vorschaudurchlaufs auf dem Redact-Knoten auf Vorschau der Daten anzeigen, um eine Gegenüberstellung der Eingabe- und Ausgabedaten anzusehen. Prüfen Sie, ob Telefonnummern mit dem Zeichen # maskiert wurden.

    Die Telefonnummern müssen maskiert sein.

Einen weiteren Datentyp entfernen

Beim Untersuchen der Ergebnisse des Vorschaudurchlaufs sehen Sie, dass die Spalte Hinweise weiterhin vertrauliche Informationen enthält, nämlich E-Mail-Adressen. Gehen Sie zurück und bearbeiten Sie die Cloud DLP-Vorlage, um auch E-Mail-Adressen zu entfernen.

  1. Rufen Sie in der Google Cloud Console die Seite „Cloud DLP“ auf.

    Zur Seite „Cloud DLP“

  2. Wählen Sie auf dem Tab Konfiguration Ihre Vorlage aus.

  3. Klicken Sie auf Bearbeiten.

  4. Klicken Sie auf Infotypen verwalten.

  5. Verwenden Sie auf dem Tab Built-in den Filter, um nach "OR" "email address" zu suchen.

    Filter.

  6. Wählen Sie alle aus und klicken Sie auf Done.

  7. Klicken Sie auf Speichern.

  8. Führen Sie Ihre Pipeline noch einmal im Vorschaumodus aus. Cloud Data Fusion verwendet automatisch die aktualisierte Cloud DLP-Vorlage.

  9. Sowohl Telefonnummern als auch E-Mail-Adressen müssen mit dem Zeichen # maskiert werden.

    Prüfen Sie, ob die Daten maskiert sind.

Pipeline bereitstellen und ausführen

  1. Vergewissern Sie sich, dass der Previewmodus deaktiviert ist.

  2. Klicken Sie auf Speichern. Wenn Sie auf Save klicken, werden Sie aufgefordert, der Pipeline einen Namen zu geben. Klicken Sie dann auf OK.

  3. Klicken Sie auf Bereitstellen.

  4. Klicken Sie nach Abschluss der Bereitstellung auf Ausführen. Die Ausführung der Pipeline kann einige Minuten dauern. In der Zwischenzeit können Sie den Status der Pipelineübergang von Bereitstellung, Start und Aktiv zu Aufheben der Bereitstellung in Erfolgreich verfolgen.

Ergebnisse aufrufen

  1. Wechseln Sie in der Google Cloud Console zur Cloud Storage-Seite.

    Cloud Storage aufrufen

  2. Navigieren Sie im Storage-Browser zum Senken-Cloud Storage-Bucket, den Sie in den Attributen des Senken-Cloud Storage-Plug-ins angegeben haben.

  3. Klicken Sie unter Link-URL auf den Link zum Herunterladen der CSV-Datei mit den Ergebnissen. Prüfen Sie, ob die Telefonnummern und E-Mail-Adressen mit dem Zeichen # maskiert wurden.

    Prüfen Sie, ob die Daten maskiert sind.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung, um die Cloud Data Fusion-Instanz zu löschen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte