In diesem Leitfaden wird beschrieben, wie Sie den Schutz sensibler Daten mit Cloud Data Fusion verwenden.
Cloud Data Fusion bietet ein Plug-in für Sensitive Data Protection. enthält drei Transformationen, mit denen Sie sensible Daten filtern, entfernen oder entschlüsseln können:
Mit der PII-Filter-Transformation können Sie vertrauliche Datensätze aus einem Eingabedatenstrom herausfiltern.
Mit der Redact-Transformation können Sie vertrauliche Daten transformieren, z. B. durch Maskieren oder Verschlüsseln.
Mit der Decrypt-Transformation können Sie vertrauliche Daten entschlüsseln, die zuvor mit der Redact-Transformation verschlüsselt wurden.
Kosten
In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Hinweis
Rufen Sie in der Google Cloud Console die Seite für die Projektauswahl auf und wählen Sie ein Projekt aus oder erstellen Sie eines.
Aktivieren Sie die Cloud Data Fusion API für Ihr Projekt.
Aktivieren Sie die DLP API (Teil von Sensitive Data Protection) für Ihr Projekt.
Berechtigungen für den Schutz sensibler Daten gewähren
Öffnen Sie in der Google Cloud Console die Seite "IAM".
Wählen Sie in der Berechtigungstabelle eines der folgenden Dienstkonten aus in der Spalte Hauptkonto:
Wählen Sie für die Berechtigung zu Ressourcen zur Laufzeit das Dienstkonto aus, das für Ihren Dataproc-Cluster verwendet wird. Die Standardeinstellung ist die Compute Engine Dienstkonto, das aus Sicherheitsgründen nicht empfohlen wird
Wenn Sie Berechtigungen für Ressourcen bei der Verwendung von Wrangler oder der Vorabversion in Cloud Data Fusion benötigen (nicht zur Laufzeit), wählen Sie stattdessen das Dienstkonto aus, das dem Format
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
entspricht.
Klicken Sie auf das Stiftsymbol rechts neben dem Dienstkonto.
Klicken Sie auf Weitere Rolle hinzufügen.
Klicken Sie auf das Drop-down-Menü, das daraufhin angezeigt wird.
Wählen Sie mithilfe der Suchleiste DLP-Administrator aus.
Klicken Sie auf Speichern. Prüfen Sie, ob der DLP-Administrator in der Spalte Rolle angezeigt wird.
Plug-in für den Schutz sensibler Daten bereitstellen
Rufen Sie Ihre Instanz auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Um die Instanz in Cloud Data Fusion Studio zu öffnen, Klicken Sie auf Instanzen und dann auf Instanz ansehen.
Klicken Sie in der Cloud Data Fusion-Web-UI rechts oben auf Hub.
Klicken Sie auf das Plug-in Schutz vor Datenverlust.
Klicken Sie auf Deploy.
Klicken Sie auf Beenden.
Klicken Sie auf Pipeline erstellen.
PII-Filter-Transformation verwenden
Diese Transformation trennt vertrauliche Datensätze von nicht vertraulichen Einträgen. A-Eintrag gilt als sensibel, wenn sie den Kriterien entspricht, die Sie in einem Vorlage für den Schutz sensibler Daten Beispielsweise können Sie beim Erstellen einer Vorlage sensible Daten als Kreditkartendaten oder Sozialversicherungsnummern definieren.
Erstellen Sie eine Inspektionsvorlage für den Schutz sensibler Daten.
Öffnen Sie die Pipeline in Cloud Data Fusion und klicken Sie auf Studio > Transformieren.
Klicken Sie auf die PII-Filter-Transformation.
Halten Sie den Mauszeiger auf den Knoten PII-Filter und klicken Sie auf Attribute.
Wählen Sie unter Filtern nach aus, ob Sie nach Datensätze oder Felder filtern möchten.
Gemäß den Limits für den Schutz sensibler Daten Wenn ein Datensatz 0,5 MB überschreitet, schlägt die Cloud Data Fusion-Pipeline fehl. Um einen solchen Fehler zu vermeiden, filtern Sie nicht nach Eintrag, sondern nach Feld.
Geben Sie unter Vorlagen-ID die Vorlagen-ID der von Ihnen erstellten Vorlage für den Schutz sensibler Daten ein.
Legen Sie unter Fehlerbehandlung fest, wie der Vorgang fortgesetzt werden soll, wenn in der Pipeline vertrauliche Daten gefunden werden. Wählen Sie eine der folgenden Optionen zur Fehlerbehandlung:
- Pipeline anhalten: stoppt die Pipeline, sobald ein Fehler auftritt.
- Überspringen: Überspringen Sie den Eintrag, der den Fehler verursacht hat. Die Pipeline wird weiterhin ausgeführt und es wird kein Fehler gemeldet.
- An Fehler senden: Fehler an den Fehlerport senden. Die Pipeline wird weiterhin ausgeführt.
Klicken Sie auf die Schaltfläche X.
Redact-Transformation verwenden
Diese Transformation identifiziert vertrauliche Einträge im Eingabestream und wendet Transformationen an, die Sie für diese Einträge definieren. Ein Eintrag wird als vertraulich eingestuft, wenn er mit vordefinierten Filtern für den Schutz sensibler Daten oder einer von Ihnen definierten Vorlage übereinstimmt.
Klicken Sie auf der Seite Studio der Cloud Data Fusion-Web-UI auf das Menü Transformieren, um es zu maximieren.
Klicken Sie auf die Transformation Redact (entfernen).
Halten Sie den Mauszeiger über den Knoten Redact und klicken Sie auf Attribute.
Wählen Sie aus, ob Sie Transformationen auf vordefinierte Filter anwenden möchten oder ob Sie eigene Filter erstellen möchten.
Diese beiden Optionen können nicht kombiniert werden. Sie können vordefinierte Filter ODER erstellen Sie eine benutzerdefinierte Vorlage.
Vordefinierte Filter
Wenn Sie Transformationen auf vordefinierte Filter anwenden möchten, lassen Sie die benutzerdefinierte Vorlage auf Nein gesetzt und definieren Sie unter Übereinstimmung eine Regel:
Nachdem Sie auf Anwenden geklickt haben, wählen Sie im Drop-down-Menü eine Transformation aus. Weitere Informationen zu den verfügbaren Transformationen erhalten Sie im Tab Dokumentation des Plug-ins unter Beschreibung.
Nachdem Sie auf an geklickt haben, wählen Sie im Drop-down-Menü eine Kategorie aus. Hierbei handelt es sich um eine Reihe vordefinierter Filter für den Schutz sensibler Daten, die nach Typ gruppiert sind. Eine vollständige Liste der bereitgestellten Kategorien und der darin enthaltenen Filter finden Sie im Tab Dokumentation des Plug-ins unter DLP-Filterzuordnung.
Klicken Sie auf +, um mehrere Abgleichsregeln festzulegen.
Benutzerdefinierte Vorlage
Wenn Sie Transformationen gemäß einer benutzerdefinierten Vorlage anwenden möchten, setzen Sie die Benutzerdefinierte Vorlage auf Ja.
Benutzerdefinierte Vorlage für den Schutz sensibler Daten erstellen
Zurück in der Cloud Data Fusion-Web-UI geben Sie im Redact-Attributmenü unter Vorlagen-ID die Vorlagen-ID der von Ihnen erstellten benutzerdefinierten Vorlage ein.
Klicken Sie auf die Schaltfläche X.
Decrypt-Transformation verwenden
Diese Transformation identifiziert Einträge, die mit Sensitive Data Protection verschlüsselt wurden im Eingabestream und wendet die Entschlüsselung an. Nur verschlüsselte Einträge mithilfe eines reversiblen Algorithmus wie formaterhaltende Verschlüsselung oder Eine deterministische Verschlüsselung kann entschlüsselt werden.
Klicken Sie auf der Seite Studio der Cloud Data Fusion-Web-UI auf das Menü Transformieren, um es zu maximieren.
Klicken Sie auf die Transformation Decrypt.
Halten Sie den Mauszeiger über den Knoten Decrypt und klicken Sie auf Attribute.
Geben Sie dieselben Werte ein, die auch zum Konfigurieren des Redact-Plug-ins verwendet wurden, mit dem diese Daten verschlüsselt wurden. Die Eigenschaften für dieses Plug-in sind identisch mit den Redact-Plug-in verwenden.
Klicken Sie auf die Schaltfläche X.