Datenprofile für BigQuery-Daten

Auf dieser Seite wird der Dienst zur Datenprofilerstellung beschrieben und wie Sie damit ermitteln können, ob sich sensible Daten und Daten mit hohem Risiko in Ihrer Organisation befinden.

Überblick

Mit dem Dienst zur Datenprofilerstellung von Cloud Data Loss Prevention (DLP) können Sie Daten in Ihrer Organisation schützen, indem Sie ermitteln, wo sich vertrauliche Daten und Daten mit hohem Risiko befinden. Wenn Sie die Datenprofilerstellung aktivieren, scannt Cloud DLP automatisch alle BigQuery-Tabellen und -Spalten in der gesamten Organisation, in einzelnen Ordnern und in Projekten. Anschließend werden Datenprofile auf Tabellen-, Spalten- und Projektebene erstellt.

Ein Datenprofil ist eine Gruppe von Messwerten, die Cloud DLP beim Scannen einer bestimmten Ressource erfasst. Zu diesen Messwerten gehören die vorhergesagten infoTypes, die Eindeutigkeit der Werte in jeder Spalte, die bewerteten Datenrisiko- und Empfindlichkeitsstufen sowie Metadaten zu Ihren Tabellen. Verwenden Sie diese Informationen, um fundierte Entscheidungen darüber zu treffen, wie Sie Ihre Daten schützen, freigeben und verwenden.

Solange die Konfiguration des Data Profilers aktiv ist, scannt Cloud DLP automatisch Tabellen, die Sie hinzufügen und ändern, und generiert neue und aktualisierte Datenprofile für diese Tabellen.

Screenshot von Spaltendatenprofilen

Eine Liste der in jedem Datenprofil enthaltenen Messwerte finden Sie in der Referenz zu Messwerten.

Datenprofil erstellen

Zum Generieren von Datenprofilen erstellen Sie eine Scankonfiguration (auch als Datenprofilkonfiguration bezeichnet). In dieser Scankonfiguration legen Sie die Ressource (Organisation, Ordner oder Projekt) fest, die Sie prüfen möchten. Alle BigQuery-Datasets und -Tabellen in dieser Ressource liegen im Bereich der Datenprofilerstellung.

Beim Erstellen einer Scankonfiguration legen Sie auch die zu verwendende Inspektionsvorlage fest. In der Inspektionsvorlage geben Sie die Typen vertraulicher Daten an, nach denen Cloud DLP suchen muss.

Wenn Cloud DLP Datenprofile erstellt, analysiert es Ihre BigQuery-Tabellen und -Spalten basierend auf Ihrer Scankonfiguration und Inspektionsvorlage. Ein Datenprofil ist ein Snapshot der Analysen, Statistiken und Messwerte zu diesem Zeitpunkt.

Mit Datenprofilen arbeiten

Der Workflow zur Verwendung von Datenprofilen:

  1. Zugriff auf den Data Profiler anfordern
  2. Prüfen, ob Sie die erforderlichen Nutzerrollen haben
  3. Scankonfiguration erstellen
  4. Nur für Scans von Organisationen oder Ordnern: Dem Dienst-Agent Zugriff auf die Profilerstellung gewähren
  5. Datenprofile ansehen
  6. Ergebnisse korrigieren

Zugriff auf den Data Profiler anfordern

Fordern Sie Zugriff auf das Data Profiler-Feature an, indem Sie das Anmeldeformular ausfüllen.

Zugriff anfordern

Das Anmeldeformular wird in einem neuen Tab geöffnet.

Nachdem Sie das Formular gesendet haben, prüft das Cloud DLP-Team Ihre Anfrage, um sicherzustellen, dass Sie die Kriterien für den Zugriff erfüllen. Sie erhalten eine E-Mail als Antwort auf Ihre Anfrage.

Rollen, die zum Konfigurieren und Aufrufen von Datenprofilen erforderlich sind

In den folgenden Abschnitten sind die erforderlichen Nutzerrollen nach ihrem Zweck kategorisiert. Je nachdem, wie Ihre Organisation eingerichtet ist, können Sie unterschiedliche Personen verschiedene Aufgaben ausführen lassen. Beispielsweise kann sich die Person, die Datenprofile konfiguriert, von der Person unterscheiden, die sie regelmäßig überwacht.

Rollen, die für die Arbeit mit Datenprofilen auf Organisations- oder Ordnerebene erforderlich sind

Mit diesen Rollen können Sie Datenprofile auf Organisations- oder Ordnerebene konfigurieren und aufrufen.

Achten Sie darauf, dass diese Rollen den richtigen Personen auf Organisationsebene zugewiesen werden. Alternativ kann Ihr Google Cloud-Administrator benutzerdefinierte Rollen erstellen, die nur die relevanten Berechtigungen haben.

Zweck Vordefinierte Rolle Relevante Berechtigungen
Datenprofile konfigurieren und ansehen DLP-Administrator (roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Projektersteller (roles/resourcemanager.projectCreator)
  • resourcemanager.organizations.get
  • resourcemanager.projects.create
Zugriff auf die Datenprofilerstellung gewähren Eine der folgenden:
  • Organisationsadministrator (roles/resourcemanager.organizationAdmin)
  • Sicherheitsadministrator (roles/iam.securityAdmin)
  • resourcemanager.organizations.getIamPolicy
  • resourcemanager.organizations.setIamPolicy
Datenprofile ansehen (schreibgeschützt) Leser von DLP-Datenprofilen (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
DLP-Leser (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

Rollen, die für die Arbeit mit Datenprofilen auf Projektebene erforderlich sind

Mit diesen Rollen können Sie Datenprofile auf Projektebene konfigurieren und ansehen.

Achten Sie darauf, dass diese Rollen den richtigen Personen auf Projektebene zugewiesen werden. Alternativ kann Ihr Google Cloud-Administrator benutzerdefinierte Rollen erstellen, die nur die relevanten Berechtigungen haben.

Zweck Vordefinierte Rolle Relevante Berechtigungen
Datenprofile konfigurieren und ansehen DLP-Administrator (roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Datenprofile ansehen (schreibgeschützt) Leser von DLP-Datenprofilen (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
DLP-Leser (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

Scankonfiguration

Eine Scankonfiguration oder eine Datenprofilkonfiguration gibt an, welche Ressource (Organisation, Ordner oder Projekt) gescannt werden soll, welche Inspektionsvorlage verwendet werden soll und was mit den Ergebnissen geschehen soll. Sie enthält auch administrative Details wie den Dienst-Agent-Container, mit dem der Scan verknüpft werden soll und welches Rechnungskonto verwendet werden soll.

Sie können eine Scankonfiguration für Ihre Organisation und eine weitere für einen bestimmten Ordner erstellen. Wenn zwei oder mehr aktive Scankonfigurationen dasselbe Projekt in ihrem Bereich haben, ermittelt Cloud DLP, welche Scankonfiguration Profile für dieses Projekt generieren kann.

Sie können auch eine Scankonfiguration auf Projektebene erstellen. Diese Art von Scankonfiguration kann immer ein Profil für das Zielprojekt erstellen und konkurriert nicht mit anderen Konfigurationen auf der Ebene des übergeordneten Ordners oder der Organisation.

Wenn Sie zum ersten Mal eine Scankonfiguration erstellen, geben Sie an, wo Cloud DLP sie speichern soll. Alle nachfolgenden Scankonfigurationen, die Sie erstellen, werden in derselben Region gespeichert.

Wenn Sie beispielsweise eine Scankonfiguration für Ordner A erstellen und in der Region us-west1 speichern, wird jede Scankonfiguration, die Sie später für andere Ressourcen erstellen, auch in dieser Region gespeichert.

Inspektionsvorlage

Eine Inspektionsvorlage gibt an, nach welchen Informationstypen (oder infoTypes) Cloud DLP beim Scannen Ihrer Daten sucht. Hier geben Sie eine Kombination aus integrierten infoTypes und optionalen benutzerdefinierten infoTypes an.

Außerdem können Sie eine Wahrscheinlichkeitsebene angeben, um einzugrenzen, was Cloud DLP als Übereinstimmung betrachtet. Sie können Regelsätze hinzufügen, um unerwünschte Ergebnisse auszuschließen oder zusätzliche Ergebnisse einzubeziehen.

Wenn Sie eine Inspektionsvorlage ändern, die von der Scankonfiguration verwendet wird, werden die Änderungen nur auf zukünftige Scans angewendet. Bestehende Datenprofile werden nicht überschrieben. Wenn Sie beispielsweise Ihre Vorlage so bearbeiten, dass ein infoType hinzugefügt wird, wirkt sich diese Änderung nur auf Tabellen aus, die noch gescannt werden müssen. Ihre Aktion führt nicht zu einem erneuten Scan aller vorhandenen Tabellen.

Die Inspektionsvorlage muss sich in derselben Region wie die Daten befinden, für die ein Profil erstellt werden soll. Wenn Sie Daten in mehreren Regionen haben, verwenden Sie eine Inspektionsvorlage, die in der Region global gespeichert ist. Weitere Informationen finden Sie unter Überlegungen zum Datenstandort.

Inspektionsvorlagen sind eine Kernkomponente der Cloud DLP-Plattform. Datenprofile verwenden dieselben Inspektionsvorlagen, die Sie in allen Cloud DLP-Diensten verwenden können. Weitere Informationen zu Inspektionsvorlagen finden Sie unter Vorlagen.

Dienst-Agent-Container

Wenn Sie eine Scankonfiguration für Ihre Organisation oder einen Ordner erstellen, müssen Sie in Cloud DLP einen Dienst-Agent-Container angeben. Ein Dienst-Agent-Container ist ein Projekt, das einen Dienst-Agent enthält. Sie benötigen einen Dienst-Agent, um sich bei Cloud DLP und anderen APIs zu authentifizieren. Ihr Dienst-Agent muss alle erforderlichen Berechtigungen für den Zugriff auf und die Profilerstellung für Ihre Daten haben.

Beim Festlegen des Dienst-Agent-Containers können Sie ein vorhandenes Projekt auswählen. Wenn das ausgewählte Projekt einen Dienst-Agent enthält, erteilt Cloud DLP diesem Dienst-Agent die erforderlichen IAM-Berechtigungen. Wenn für das Projekt kein Dienst-Agent vorhanden ist, erstellt Cloud DLP einen Dienst-Agent und erteilt diesem automatisch Berechtigungen zur Datenprofilerstellung.

Alternativ können Sie festlegen, dass Cloud DLP den Dienst-Agent-Container und den Dienst-Agent automatisch erstellt. Cloud DLP gewährt dem Dienst-Agent automatisch Berechtigungen zur Datenprofilerstellung.

In beiden Fällen wird, falls Cloud DLP Ihrem Dienst-Agent keinen Zugriff auf die Datenprofilerstellung gewährt, ein Fehler angezeigt, wenn Sie die Scan-Konfigurationsdetails ansehen.

Für Scankonfigurationen auf Projektebene benötigen Sie keinen Dienst-Agent-Container. Das Projekt, für das Sie ein Profil erstellen, dient dem Zweck des Dienst-Agent-Containers.

Zugriff auf die Datenprofilerstellung auf Organisations- oder Ordnerebene

Wenn Sie auf Organisations- oder Ordnerebene eine Scankonfiguration erstellen, versucht Cloud DLP, Ihrem Dienst-Agent automatisch Zugriff auf die Datenprofilerstellung zu gewähren. Wenn Sie jedoch nicht die Berechtigungen zum Zuweisen von IAM-Rollen haben, kann Cloud DLP diese Aktion nicht in Ihrem Namen ausführen. Eine Person mit diesen Berechtigungen in Ihrer Organisation, z. B. ein Google Cloud-Administrator, muss Ihrem Dienst-Agent Zugriff auf die Datenprofilerstellung gewähren.

Häufigkeit der Datenprofilerstellung

Nachdem Sie eine Scankonfiguration für eine bestimmte Ressource erstellt haben, führt Cloud DLP einen ersten Scan aus und erstellt Profile für alle Tabellen in dieser Ressource. Nach dem ersten Scan werden Ihre BigQuery-Tabellen kontinuierlich auf Ergänzungen oder Änderungen überwacht, die Sie einführen. Für neue Tabellen, die Sie hinzufügen, wird kurz nach dem Hinzufügen ein Profil erstellt. Für alle Tabellen, die Sie ändern, wird im nächsten Kalendermonat ein Profil erstellt. Für nicht geänderte Tabellen wird kein neues Profil erstellt.

Cloud DLP wendet keine neue Profilerstellung auf Tabellen an, die sich seit der letzten Profilerstellung nicht geändert haben. Wenn Sie möchten, dass Cloud DLP eine neue Profilerstellung für vorhandene Tabellen ausführt, können Sie eine Anfrage an das Cloud DLP-Team senden.

Beispielszenarien finden Sie unter Preisbeispiele für Datenprofilerstellung.

Aufbewahrung von Datenprofilen

Cloud DLP bewahrt die neueste Version eines Datenprofils für 13 Monate auf. Wenn Cloud DLP eine Profilerstellung für eine aktualisierte Tabelle nochmal ausführt, werden die vorhandenen Datenprofile dieser Tabelle durch neue ersetzt.

Sehen Sie sich die folgenden Szenarien an:

  • Am 1. Januar erstellt Cloud DLP für Tabelle A ein Profil. Tabelle A ändert sich mehr als ein Jahr lang nicht und daher wird kein neues Profil dafür erstellt. In diesem Fall speichert Cloud DLP die Datenprofile für Tabelle A 13 Monate lang, bevor sie gelöscht werden.

  • Am 1. Januar erstellt Cloud DLP für Tabelle A ein Profil. Innerhalb des Monats wird diese Tabelle von einem Nutzer in Ihrer Organisation aktualisiert. Aufgrund dieser Änderung aktualisiert Cloud DLP die Tabelle A im nächsten Monat automatisch neu. Die neu erstellten Datenprofile überschreiben die Profile, die im Januar erstellt wurden.

Informationen zu den Preisen von Cloud DLP für die Profilerstellung von neuen und geänderten Tabellen finden Sie unter Preise für die Profilerstellung.

Wenn Sie Datenprofile unbegrenzt aufbewahren oder einen Datensatz der vorgenommenen Änderungen aufbewahren möchten, sollten Sie die Datenprofile beim Erstellen einer Scankonfiguration in BigQuery speichern. Sie wählen, in welchem BigQuery-Dataset die Profile gespeichert werden sollen und steuern die Ablaufrichtlinie für dieses Dataset.

Scankonfigurationen überschreiben

Sie können für jede Organisation, jeden Ordner und jedes Projekt maximal eine Scankonfiguration erstellen.

Wenn zwei oder mehr aktive Scankonfigurationen dasselbe Projekt in ihrem Bereich haben, gelten die folgenden Regeln:

  • Von den Scankonfigurationen auf Organisations- und Ordnerebene kann mit der Konfiguration, die dem Projekt am nächsten ist, Datenprofile für dieses Projekt generiert werden. Dies gilt auch dann, wenn für dieses Projekt auch eine Scankonfiguration auf Projektebene vorhanden ist.
  • Cloud DLP behandelt Scankonfigurationen auf Projektebene unabhängig von Konfigurationen auf Organisations- und Ordnerebene. Eine auf Projektebene erstellte Scankonfiguration kann eine Konfiguration, die Sie für einen übergeordneten Ordner oder eine übergeordnete Organisation erstellen, nicht überschreiben.

Betrachten Sie das folgende Beispiel, in dem es drei aktive Scankonfigurationen gibt:

Diagramm einer Ressourcenhierarchie, in der eine Scankonfiguration auf die Organisation und auf Ordner angewendet wird

Hier gilt Scankonfiguration 1 für die gesamte Organisation, Scankonfiguration 2 gilt für den Team B-Ordner und Scankonfiguration 3 gilt für das Projekt Produktion. In diesem Beispiel:

  • Cloud DLP erstellt Profile für alle Tabellen in Projekten, die sich nicht im Team B-Ordner befinden, gemäß Scankonfiguration 1.
  • Cloud DLP erstellt Profile für alle Tabellen in Projekten im Team B-Ordner, gemäß Scankonfiguration 2. Dazu gehören auch Tabellen im Projekt Produktion.
  • Cloud DLP erstellt Profile für alle Tabellen im Projekt Produktion gemäß Scankonfiguration 3.

In diesem Beispiel generiert Cloud DLP effektiv zwei Profilsätze für das Projekt Produktion – einen Satz für jede der folgenden Scankonfigurationen:

  • Scankonfiguration 2
  • Scankonfiguration 3

Obwohl es zwei Profilsätze für dasselbe Projekt gibt, können Sie sie jedoch nicht alle zusammen im Dashboard sehen. Sie sehen nur die Profile, die im Bereich und in der Region generiert wurden, die sie augenblicklich betrachten.

Weitere Informationen zur Ressourcenhierarchie von Google Cloud finden Sie unter Ressourcenhierarchie.

Snapshots von Datenprofilen

Jedes Datenprofil enthält einen Snapshot der Scankonfiguration und die Inspektionsvorlage, die zum Generieren verwendet wurde. Dies bedeutet, dass Sie auch bei einer späteren Änderung der Scankonfiguration oder Inspektionsvorlage jederzeit die Einstellungen prüfen können, die Sie zum Generieren eines bestimmten Datenprofils verwendet haben.

Überlegungen zum Datenstandort

Cloud DLP unterstützt den Datenstandort. Beachten Sie die folgenden Punkte, wenn Sie Anforderungen an den Datenstandort erfüllen müssen:

Prüfregionen

Cloud DLP prüft Ihre Daten in derselben Region, in der diese Daten gespeichert sind. Das heißt, Ihre BigQuery-Daten verlassen nicht ihre aktuelle Region.

Außerdem können mit einer Inspektionsvorlage nur Profile für Daten erstellt werden, die sich in derselben Region wie diese Vorlage befinden. Wenn Sie beispielsweise den Data Profiler so konfigurieren, dass eine in der Region us-west1 gespeicherte Inspektionsvorlage verwendet wird, kann Cloud DLP nur Profile für Daten erstellen, die sich in dieser Region befinden. Für alle Tabellen außerhalb dieser Region schlägt die Profilerstellung mit einer Fehlermeldung fehl.

Wenn Sie Profile für Daten erstellen möchten, die in mehreren Regionen gespeichert sind, verwenden Sie eine Inspektionsvorlage, die in der Region global gespeichert ist.

Die folgende Tabelle enthält Beispielszenarien:

Szenario Support
Scannen Sie Daten in der Region us mit einer Inspektionsvorlage aus der Region us. Unterstützt
Scannen Sie Daten in der Region global mit einer Inspektionsvorlage aus der Region us. Nicht unterstützt
Scannen Sie Daten in der Region us mit einer Inspektionsvorlage aus der Region global. Unterstützt
Scannen Sie Daten in der Region us mit einer Inspektionsvorlage aus der Region us-east1. Nicht unterstützt
Scannen Sie Daten in der Region us-east1 mit einer Inspektionsvorlage aus der Region us. Nicht unterstützt
Scannen Sie Daten in der Region us mit einer Inspektionsvorlage aus der Region asia. Nicht unterstützt

Konfiguration von Datenprofilen

Wenn Cloud DLP Datenprofile erstellt, wird ein Snapshot der Scankonfiguration und der Inspektionsvorlage erstellt und in jedem Tabellendatenprofil gespeichert. Wenn Sie den Data Profiler so konfigurieren, dass eine Inspektionsvorlage aus der Region global verwendet wird, kopiert Cloud DLP diese Vorlage in jede Region mit Daten, für die ein Profil werden soll. Die Scankonfiguration wird in diese Regionen kopiert.

Betrachten Sie dieses Beispiel: Projekt A enthält Tabelle 1. Tabelle 1 befindet sich in der Region us-west1. Die Scankonfiguration befindet sich in der Region us-west2 und die Inspektionsvorlage befindet sich in der Region global.

Wenn Cloud DLP Projekt A scannt, werden Datenprofile für Tabelle 1 erstellt und in der Region us-west1 gespeichert. Das Tabellendatenprofil von Tabelle 1 enthält Kopien der Scankonfiguration und der bei der Profilerstellung verwendeten Inspektionsvorlage.

Wenn Ihre Inspektionsvorlage nicht in andere Regionen kopiert werden soll, konfigurieren Sie Cloud DLP nicht so, dass Daten in diesen Regionen gescannt werden.

Regional Storage für Datenprofile

Nach der Prüfung Ihrer Daten generiert Cloud DLP Datenprofile. Jedes Datenprofil wird in derselben Region gespeichert, in der die Zieldaten gespeichert sind. Dort wird auch die Inspektion verarbeitet. Wenn Sie sich Datenprofile im Dashboard ansehen möchten, müssen Sie zuerst die Region auswählen, in der sie sich befinden. Wenn Sie Daten in mehreren Regionen haben, müssen Sie die Regionen wechseln, um alle Gruppen von Profilen sehen zu können.

Nicht unterstützte Regionen

Wenn Sie über Tabellen in einer Region verfügen, die von Cloud DLP nicht unterstützt wird, werden diese Tabellen übersprungen und es wird eine Fehlermeldung angezeigt, wenn Sie die Datenprofile ansehen.

Multiregionen

Cloud DLP behandelt eine Multi-Region als eine Region, nicht als eine Sammlung von Regionen. Beispiel: Die Multi-Region us und die Region us-west1 werden im Hinblick auf den Datenstandort als zwei separate Regionen behandelt.

Compliance

Informationen dazu, wie Cloud DLP Ihre Daten verarbeitet und Sie bei der Erfüllung von Compliance-Anforderungen unterstützt, finden Sie unter Datensicherheit.

Hilfe und Support erhalten

Für Feedback und Supportanfragen während der Vorschau senden Sie eine E-Mail an cloud-dlp-feedback@google.com.

Nächste Schritte