Datenprofile für BigQuery-Daten

Auf dieser Seite wird der Data Profiler beschrieben und wie Sie damit ermitteln, wo sensible und risikoreiche Daten in Ihrer Organisation gespeichert werden.

Übersicht

Mit dem Datenprofiler können Sie Daten unternehmensweit schützen. Dazu ermitteln Sie, wo sich sensible und risikoreiche Daten befinden. Wenn Sie die Datenprofilerstellung aktivieren, scannt Cloud DLP automatisch alle BigQuery-Tabellen und -Spalten in der gesamten Organisation, in einzelnen Ordnern und in Projekten. Anschließend werden Datenprofile auf Tabellen-, Spalten- und Projektebene erstellt.

Ein Datenprofil ist eine Gruppe von Messwerten, die Cloud DLP beim Scannen einer bestimmten Ressource erfasst. Zu diesen Messwerten gehören die vorhergesagten infoTypes, die bewerteten Datenrisiko- und Empfindlichkeitsstufen sowie Metadaten zu Ihren Tabellen. Verwenden Sie diese Informationen, um fundierte Entscheidungen darüber zu treffen, wie Sie Ihre Daten schützen, freigeben und verwenden.

Solange die Konfiguration des Data Profilers aktiv ist, scannt Cloud DLP automatisch Tabellen, die Sie hinzufügen und ändern, und generiert neue und aktualisierte Datenprofile für diese Tabellen.

Die folgende Abbildung zeigt eine Liste von Spaltendatenprofilen. Klicken Sie auf das Bild, um es zu vergrößern.

Screenshot von Spaltendatenprofilen

Eine Liste der in jedem Datenprofil enthaltenen Messwerte finden Sie in der Referenz zu Messwerten.

Datenprofil erstellen

Zum Generieren von Datenprofilen erstellen Sie eine Scankonfiguration (auch als Datenprofilkonfiguration bezeichnet). In dieser Scankonfiguration legen Sie die Ressource (Organisation, Ordner oder Projekt) fest, die Sie prüfen möchten. Alle BigQuery-Datasets und -Tabellen in dieser Ressource liegen im Bereich der Datenprofilerstellung.

Beim Erstellen einer Scankonfiguration legen Sie auch die zu verwendende Inspektionsvorlage fest. In der Inspektionsvorlage geben Sie die Typen vertraulicher Daten an, nach denen Cloud DLP suchen muss.

Wenn Cloud DLP Datenprofile erstellt, analysiert es Ihre BigQuery-Tabellen und -Spalten basierend auf Ihrer Scankonfiguration und Inspektionsvorlage. Ein Datenprofil ist eine Übersicht über die Analyse und die Messwerte, die zu einem bestimmten Zeitpunkt erfasst wurden.

Mit Datenprofilen arbeiten

Der Workflow zur Verwendung von Datenprofilen:

  1. Prüfen, ob Sie die erforderlichen Nutzerrollen haben
  2. Einzelnes Projekt erstellen
  3. Profil für Organisation oder Ordner erstellen
  4. Nur für Scans von Organisationen oder Ordnern: Dem Dienst-Agent Zugriff auf die Profilerstellung gewähren
  5. Datenprofile ansehen
  6. Datenprofile analysieren
  7. Ergebnisse korrigieren

Rollen, die zum Konfigurieren und Aufrufen von Datenprofilen erforderlich sind

In den folgenden Abschnitten sind die erforderlichen Nutzerrollen nach ihrem Zweck kategorisiert. Je nachdem, wie Ihre Organisation eingerichtet ist, können Sie unterschiedliche Personen verschiedene Aufgaben ausführen lassen. Beispielsweise kann sich die Person, die Datenprofile konfiguriert, von der Person unterscheiden, die sie regelmäßig überwacht.

Rollen, die für die Arbeit mit Datenprofilen auf Organisations- oder Ordnerebene erforderlich sind

Mit diesen Rollen können Sie Datenprofile auf Organisations- oder Ordnerebene konfigurieren und aufrufen.

Achten Sie darauf, dass diese Rollen den richtigen Personen auf Organisationsebene zugewiesen werden. Alternativ kann Ihr Google Cloud-Administrator benutzerdefinierte Rollen erstellen, die nur die relevanten Berechtigungen haben.

Zweck Vordefinierte Rolle Relevante Berechtigungen
Datenprofile konfigurieren und ansehen DLP-Administrator (roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Projektersteller (roles/resourcemanager.projectCreator)
  • resourcemanager.organizations.get
  • resourcemanager.projects.create
Zugriff auf die Datenprofilerstellung gewähren Eine der folgenden:
  • Organisationsadministrator (roles/resourcemanager.organizationAdmin)
  • Sicherheitsadministrator (roles/iam.securityAdmin)
  • resourcemanager.organizations.getIamPolicy
  • resourcemanager.organizations.setIamPolicy
Datenprofile ansehen (schreibgeschützt) Leser von DLP-Datenprofilen (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
DLP-Leser (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

Rollen, die für die Arbeit mit Datenprofilen auf Projektebene erforderlich sind

Mit diesen Rollen können Sie Datenprofile auf Projektebene konfigurieren und ansehen.

Achten Sie darauf, dass diese Rollen den richtigen Personen auf Projektebene zugewiesen werden. Alternativ kann Ihr Google Cloud-Administrator benutzerdefinierte Rollen erstellen, die nur die relevanten Berechtigungen haben.

Zweck Vordefinierte Rolle Relevante Berechtigungen
Datenprofile konfigurieren und ansehen DLP-Administrator (roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Datenprofile ansehen (schreibgeschützt) Leser von DLP-Datenprofilen (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
DLP-Leser (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

Scankonfiguration

Eine Scankonfiguration oder eine Datenprofilkonfiguration gibt an, welche Ressource (Organisation, Ordner oder Projekt) gescannt werden soll, welche Inspektionsvorlage verwendet werden soll und was mit den Ergebnissen geschehen soll. Sie enthält auch administrative Details wie den Dienst-Agent-Container, mit dem der Scan verknüpft werden soll und welches Rechnungskonto verwendet werden soll.

Sie können eine Scankonfiguration für Ihre Organisation und eine weitere für einen bestimmten Ordner erstellen. Wenn zwei oder mehr aktive Scankonfigurationen dasselbe Projekt in ihrem Bereich haben, ermittelt Cloud DLP, welche Scankonfiguration Profile für dieses Projekt generieren kann.

Sie können auch eine Scankonfiguration auf Projektebene erstellen. Diese Art von Scankonfiguration kann immer ein Profil für das Zielprojekt erstellen und konkurriert nicht mit anderen Konfigurationen auf der Ebene des übergeordneten Ordners oder der Organisation.

Wenn Sie zum ersten Mal eine Scankonfiguration erstellen, geben Sie an, wo Cloud DLP sie speichern soll. Alle nachfolgenden Scankonfigurationen, die Sie erstellen, werden in derselben Region gespeichert.

Wenn Sie beispielsweise eine Scankonfiguration für Ordner A erstellen und in der Region us-west1 speichern, wird jede Scankonfiguration, die Sie später für andere Ressourcen erstellen, auch in dieser Region gespeichert.

Inspektionsvorlage

Eine Inspektionsvorlage gibt an, nach welchen Informationstypen (oder infoTypes) Cloud DLP beim Scannen Ihrer Daten sucht. Hier geben Sie eine Kombination aus integrierten infoTypes und optionalen benutzerdefinierten infoTypes an.

Außerdem können Sie eine Wahrscheinlichkeitsebene angeben, um einzugrenzen, was Cloud DLP als Übereinstimmung betrachtet. Sie können Regelsätze hinzufügen, um unerwünschte Ergebnisse auszuschließen oder zusätzliche Ergebnisse einzubeziehen.

Wenn Sie eine Inspektionsvorlage ändern, die von der Scankonfiguration verwendet wird, werden die Änderungen nur auf zukünftige Scans angewendet. Bestehende Datenprofile werden nicht überschrieben. Wenn Sie beispielsweise die Vorlage zum Hinzufügen eines infoType bearbeiten, wirkt sich die Änderung nur auf Tabellen aus, die noch gescannt werden müssen. Ihre Aktion führt nicht zu einem erneuten Scan aller vorhandenen Tabellen.

Die Inspektionsvorlage muss sich in derselben Region wie die Daten befinden, für die ein Profil erstellt werden soll. Wenn Sie Daten in mehreren Regionen haben, verwenden Sie eine Inspektionsvorlage, die in der Region global gespeichert ist. Weitere Informationen finden Sie unter Überlegungen zum Datenstandort.

Inspektionsvorlagen sind eine Kernkomponente der Cloud DLP-Plattform. Datenprofile verwenden dieselben Inspektionsvorlagen, die Sie in allen Cloud DLP-Diensten verwenden können. Weitere Informationen zu Inspektionsvorlagen finden Sie unter Vorlagen.

Dienst-Agent-Container und Dienst-Agent

Wenn Sie eine Scankonfiguration für Ihre Organisation oder einen Ordner erstellen, müssen Sie in Cloud DLP einen Dienst-Agent-Container angeben. Ein Dienst-Agent-Container ist ein Google Cloud-Projekt, mit dem Cloud DLP berechnete Gebühren für Profilerstellungen auf Organisations- und Ordnerebene verfolgt.

Der Dienst-Agent-Container enthält einen Dienst-Agent, ein von Google verwaltetes Dienstkonto, das Cloud DLP verwendet, um Daten in Ihrem Namen zu profilieren. Sie benötigen einen Dienst-Agent, um sich bei Cloud DLP und anderen APIs zu authentifizieren. Ihr Dienst-Agent muss alle erforderlichen Berechtigungen haben, um auf Ihre Daten zuzugreifen und ein Profil zu erstellen. Die ID des Service-Agents hat folgendes Format:

service-PROJECT_NUMBER@dlp-api.iam.gserviceaccount.com

Hier ist PROJECT_NUMBER die numerische Kennung des Dienst-Agent-Containers.

Beim Festlegen des Dienst-Agent-Containers können Sie ein vorhandenes Projekt auswählen. Wenn das ausgewählte Projekt einen Dienst-Agent enthält, erteilt Cloud DLP diesem Dienst-Agent die erforderlichen IAM-Berechtigungen. Wenn für das Projekt kein Dienst-Agent vorhanden ist, erstellt Cloud DLP einen Dienst-Agent und erteilt diesem automatisch Berechtigungen zur Datenprofilerstellung.

Alternativ können Sie festlegen, dass Cloud DLP den Dienst-Agent-Container und den Dienst-Agent automatisch erstellt. Cloud DLP gewährt dem Dienst-Agent automatisch Berechtigungen zur Datenprofilerstellung.

In beiden Fällen wird, falls Cloud DLP Ihrem Dienst-Agent keinen Zugriff auf die Datenprofilerstellung gewährt, ein Fehler angezeigt, wenn Sie die Scan-Konfigurationsdetails ansehen.

Für Scankonfigurationen auf Projektebene benötigen Sie keinen Dienst-Agent-Container. Das Projekt, für das Sie ein Profil erstellen, dient dem Zweck des Dienst-Agent-Containers. Zum Ausführen von Profilerstellungsvorgängen verwendet Cloud DLP diesen Dienst-Agent.

Zugriff auf die Datenprofilerstellung auf Organisations- oder Ordnerebene

Wenn Sie die Profilerstellung auf Organisations- oder Ordnerebene konfigurieren, versucht Cloud DLP, Ihrem Dienst-Agent automatisch Zugriff auf Datenprofile zu gewähren. Wenn Sie jedoch nicht die Berechtigungen zum Zuweisen von IAM-Rollen haben, kann Cloud DLP diese Aktion nicht in Ihrem Namen ausführen. Eine Person mit diesen Berechtigungen in Ihrer Organisation, z. B. ein Google Cloud-Administrator, muss Ihrem Dienst-Agent Zugriff auf die Datenprofilerstellung gewähren.

Standardhäufigkeit der Datenprofilerstellung

Standardmäßig werden Ihre Daten von Cloud DLP so erstellt:

  1. Nachdem Sie eine Scankonfiguration für eine bestimmte Ressource erstellt haben, führt Cloud DLP einen ersten Scan aus und erstellt Profile für alle Tabellen in dieser Ressource. Nach dem ersten Scan werden Ihre BigQuery-Tabellen kontinuierlich auf Ergänzungen oder Änderungen überwacht, die Sie einführen.

  2. Cloud DLP-Profile erstellen neue Tabellen, die Sie kurz danach hinzufügen.

  3. Alle 30 Tage erstellt Cloud DLP ein Profil für bestehende Tabellen, bei denen innerhalb der letzten 30 Tage Schemaänderungen vorgenommen wurden.

In Ihrer Scankonfiguration können Sie jedoch die Häufigkeit der Profilerstellung anpassen, indem Sie einen oder mehrere Zeitpläne für verschiedene Teilmengen Ihrer Daten erstellen. Sie können auch Teilmengen von Daten angeben, für die Sie kein Profil erhalten möchten. Weitere Informationen finden Sie unter Zeitpläne verwalten in der Anleitung zum Konfigurieren der Profilerstellung.

Standardmäßig weist Cloud DLP Tabellen, die keine Schemaänderungen haben, neu auf. Wenn Sie möchten, dass Cloud DLP vorhandene Tabellen reprofiliert, können Sie eine Anfrage senden.

Beispielszenarien finden Sie unter Preisbeispiele für Datenprofilerstellung.

Profiling-Leistung

Die Dauer der Profilerstellung hängt von verschiedenen Faktoren ab, unter anderem von Folgendem:

  • Anzahl der Tabellen, für die ein Profil erstellt wird
  • Größen der Tabellen
  • Anzahl der Spalten in den Tabellen
  • Datentypen in den Spalten

Daher ist die Leistung von Cloud DLP in einer früheren Inspektions- oder Profilerstellungsaufgabe nicht darauf zurückzuführen, dass sie in zukünftigen Profilerstellungsaufgaben ausgeführt wird.

Aufbewahrung von Datenprofilen

Cloud DLP bewahrt die neueste Version eines Datenprofils für 13 Monate auf. Wenn Cloud DLP eine Profilerstellung für eine aktualisierte Tabelle nochmal ausführt, werden die vorhandenen Datenprofile dieser Tabelle durch neue ersetzt.

Sehen Sie sich die folgenden Szenarien an:

  • Am 1. Januar erstellt Cloud DLP für Tabelle A ein Profil. Tabelle A ändert sich mehr als ein Jahr lang nicht und daher wird kein neues Profil dafür erstellt. In diesem Fall speichert Cloud DLP die Datenprofile für Tabelle A 13 Monate lang, bevor sie gelöscht werden.

  • Am 1. Januar erstellt Cloud DLP für Tabelle A ein Profil. Innerhalb eines Monats aktualisiert jemand in Ihrer Organisation das Schema dieser Tabelle. Aufgrund dieser Änderung erstellt Cloud DLP im folgenden Monat automatisch eine neue Profiltabelle A. Die im Januar erstellten Datenprofile überschreiben die, die im Januar erstellt wurden.

Informationen zu den Preisen von Cloud DLP für die Profilerstellung von neuen und geänderten Tabellen finden Sie unter Preise für die Profilerstellung.

Wenn Sie Datenprofile auf unbestimmte Zeit aufbewahren oder die vorgenommenen Änderungen speichern möchten, sollten Sie die Datenprofile in BigQuery speichern, wenn Sie die Profilerstellung konfigurieren. Sie wählen, in welchem BigQuery-Dataset die Profile gespeichert werden sollen und steuern die Ablaufrichtlinie für dieses Dataset.

Scankonfigurationen überschreiben

Sie können für jede Organisation, jeden Ordner und jedes Projekt maximal eine Scankonfiguration erstellen.

Wenn zwei oder mehr aktive Scankonfigurationen dasselbe Projekt in ihrem Bereich haben, gelten die folgenden Regeln:

  • Von den Scankonfigurationen auf Organisations- und Ordnerebene kann mit der Konfiguration, die dem Projekt am nächsten ist, Datenprofile für dieses Projekt generiert werden. Diese Regel gilt auch dann, wenn eine Scankonfiguration auf Projektebene für dieses Projekt ebenfalls vorhanden ist.
  • Cloud DLP behandelt Scankonfigurationen auf Projektebene unabhängig von Konfigurationen auf Organisations- und Ordnerebene. Eine auf Projektebene erstellte Scankonfiguration kann eine Konfiguration, die Sie für einen übergeordneten Ordner oder eine übergeordnete Organisation erstellen, nicht überschreiben.

Betrachten Sie das folgende Beispiel, in dem es drei aktive Scankonfigurationen gibt:

Diagramm einer Ressourcenhierarchie mit einer Scankonfiguration, die auf eine Organisation, einen Ordner und ein Projekt angewendet wird

Hier gilt Scankonfiguration 1 für die gesamte Organisation, Scankonfiguration 2 gilt für den Team B-Ordner und Scankonfiguration 3 gilt für das Projekt Produktion. Für dieses Beispiel gilt Folgendes:

  • Cloud DLP erstellt alle Tabellen in Projekten, die sich gemäß der Scan-Konfiguration 1 im Ordner Team B befinden, an Projekten.
  • gemäß den Scankonfiguration 2 erstellt Cloud DLP alle Tabellen in Projekten im Ordner Team B – einschließlich Tabellen im Projekt Produktion.
  • Cloud DLP erstellt Profile für alle Tabellen im Projekt Produktion gemäß Scankonfiguration 3.

In diesem Beispiel generiert Cloud DLP effektiv zwei Profilsätze für das Projekt Produktion – einen Satz für jede der folgenden Scankonfigurationen:

  • Scankonfiguration 2
  • Scankonfiguration 3

Obwohl es zwei Profilsätze für dasselbe Projekt gibt, können Sie sie jedoch nicht alle zusammen im Dashboard sehen. Sie sehen nur die Profile, die in dem Bereich und der Region generiert wurden, die Sie sich gerade ansehen.

Weitere Informationen zur Ressourcenhierarchie von Google Cloud finden Sie unter Ressourcenhierarchie.

Snapshots von Datenprofilen

Jedes Datenprofil enthält einen Snapshot der Scankonfiguration und die Inspektionsvorlage, die zum Generieren verwendet wurde. Mit diesem Snapshot können Sie die Einstellungen überprüfen, die Sie zum Generieren eines bestimmten Datenprofils verwendet haben.

Überlegungen zum Datenstandort

Cloud DLP unterstützt den Datenstandort. Beachten Sie die folgenden Punkte, wenn Sie Anforderungen an den Datenstandort erfüllen müssen:

Prüfregionen

Cloud DLP prüft Ihre Daten in derselben Region, in der diese Daten gespeichert sind. Das heißt, Ihre BigQuery-Daten verlassen nicht ihre aktuelle Region.

Außerdem können mit einer Inspektionsvorlage nur Profile für Daten erstellt werden, die sich in derselben Region wie diese Vorlage befinden. Wenn Sie beispielsweise den Data Profiler so konfigurieren, dass eine in der Region us-west1 gespeicherte Inspektionsvorlage verwendet wird, kann Cloud DLP nur Profile für Daten erstellen, die sich in dieser Region befinden.

Sie können für jede Region, in der Daten verfügbar sind, eine eigene Inspektionsvorlage festlegen. Wenn Sie eine Inspektionsvorlage angeben, die in der Region global gespeichert ist, verwendet Cloud DLP diese Vorlage für Daten in Regionen ohne eigene Inspektionsvorlage.

Die folgende Tabelle enthält Beispielszenarien:

Szenario Support
Scannen Sie Daten in der Region us mit einer Inspektionsvorlage aus der Region us. Unterstützt
Scannen Sie Daten in der Region global mit einer Inspektionsvorlage aus der Region us. Nicht unterstützt
Scannen Sie Daten in der Region us mit einer Inspektionsvorlage aus der Region global. Unterstützt
Scannen Sie Daten in der Region us mit einer Inspektionsvorlage aus der Region us-east1. Nicht unterstützt
Scannen Sie Daten in der Region us-east1 mit einer Inspektionsvorlage aus der Region us. Nicht unterstützt
Scannen Sie Daten in der Region us mit einer Inspektionsvorlage aus der Region asia. Nicht unterstützt

Konfiguration von Datenprofilen

Wenn Cloud DLP Datenprofile erstellt, wird ein Snapshot der Scankonfiguration und der Inspektionsvorlage erstellt und in jedem Tabellendatenprofil gespeichert. Wenn Sie den Data Profiler so konfigurieren, dass eine Inspektionsvorlage aus der Region global verwendet wird, kopiert Cloud DLP diese Vorlage in jede Region mit Daten, für die ein Profil werden soll. Die Scankonfiguration wird in diese Regionen kopiert.

Betrachten Sie dieses Beispiel: Projekt A enthält Tabelle 1. Tabelle 1 befindet sich in der Region us-west1. Die Scankonfiguration befindet sich in der Region us-west2 und die Inspektionsvorlage befindet sich in der Region global.

Wenn Cloud DLP Projekt A scannt, werden Datenprofile für Tabelle 1 erstellt und in der Region us-west1 gespeichert. Das Tabellendatenprofil von Tabelle 1 enthält Kopien der Scankonfiguration und der bei der Profilerstellung verwendeten Inspektionsvorlage.

Wenn Ihre Inspektionsvorlage nicht in andere Regionen kopiert werden soll, konfigurieren Sie Cloud DLP nicht so, dass Daten in diesen Regionen gescannt werden.

Regional Storage für Datenprofile

Nach der Prüfung Ihrer Daten generiert Cloud DLP Datenprofile. Jedes Datenprofil wird in der Region gespeichert, in der auch die Zieldaten gespeichert sind. Dort wird auch die Prüfung verarbeitet. Wenn Sie sich Datenprofile im Dashboard ansehen möchten, müssen Sie zuerst die Region auswählen, in der sie sich befinden. Wenn Sie Daten in mehreren Regionen haben, müssen Sie die Regionen wechseln, um alle Gruppen von Profilen sehen zu können.

Nicht unterstützte Regionen

Wenn Sie über Tabellen in einer Region verfügen, die von Cloud DLP nicht unterstützt wird, werden diese Tabellen übersprungen und es wird eine Fehlermeldung angezeigt, wenn Sie die Datenprofile ansehen.

Multiregionen

Cloud DLP behandelt eine Multi-Region als eine Region, nicht als eine Sammlung von Regionen. Beispiel: Die Multi-Region us und die Region us-west1 werden im Hinblick auf den Datenstandort als zwei separate Regionen behandelt.

Compliance

Informationen dazu, wie Cloud DLP Ihre Daten verarbeitet und Sie bei der Erfüllung von Compliance-Anforderungen unterstützt, finden Sie unter Datensicherheit.

Weitere Informationen