Tabellen in Dataplex anhand von Statistiken aus Datenprofilen taggen

Auf dieser Seite wird beschrieben, wie Dataplex-Tags automatisch auf BigQuery-Tabellen angewendet werden, nachdem diese Tabellen mit dem Schutz sensibler Daten profiliert wurden. Auf dieser Seite finden Sie auch Beispielabfragen, mit denen Sie getaggte Daten in Ihrer Organisation und in Ihren Projekten finden können.

Diese Funktion ist nützlich, wenn Sie Ihre manuell kuratierten Metadaten in Dataplex mit Erkenntnissen aus Datenprofilen für den Schutz sensibler Daten anreichern möchten. Die generierten Tags enthalten die folgenden Informationen:

  • In den Spalten der Tabelle erkannte Informationstypen (infoTypes)
  • Berechnete Vertraulichkeitsstufe der Tabelle
  • Berechnete Datenrisikostufe der Tabelle

Mithilfe von Informationen aus Datenprofilen für den Schutz sensibler Daten können Sie mit Dataplex sensible und risikoreiche Daten in Ihrer Organisation ermitteln. Nutzen Sie diese Informationen, um fundierte Entscheidungen zur Verwaltung und Verwaltung Ihrer Daten zu treffen.

Wenn Sie die Ergebnisse von Inspektionsjobs, nicht die Ergebnisse von Datenprofilierungsaktionen, an Dataplex senden möchten, lesen Sie stattdessen den Hilfeartikel Ergebnisse der Prüfung zum Schutz sensibler Daten an Data Catalog senden.

Datenprofile

Sie können den Schutz sensibler Daten so konfigurieren, dass automatisch Profile für Daten in einer Organisation, einem Ordner oder einem Projekt generiert werden. Datenprofile enthalten Messwerte und Metadaten zu Ihren Daten und können ermitteln, wo sich sensible und risikoreiche Daten befinden. Der Schutz sensibler Daten meldet diese Messwerte auf verschiedenen Detailebenen. Informationen zu den Datentypen, die Sie profilieren können, finden Sie unter Unterstützte Ressourcen.

Dataplex und Data Catalog

Dataplex ist ein Google Cloud-Dienst, mit dem verteilte Daten zusammengeführt und die Datenverwaltung und Governance für diese Daten automatisiert werden. Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung in Dataplex.

In Data Catalog können Sie mithilfe von Tags und Tag-Vorlagen Geschäftsmetadaten an Ihre Daten anhängen. Anschließend können Sie alle Metadaten für Ihre Organisation oder Ihr Projekt in einem einheitlichen Dienst suchen und verwalten. Weitere Informationen finden Sie unter Tags und Tag-Vorlagen.

Funktionsweise

Wenn in Ihrer Konfiguration für den explorativen Datenanalyse-Scan die Aktion Als Tags an Dataplex senden aktiviert ist, geschieht bei jedem Erstellen eines Datenprofils Folgendes: Diese Aktion wird nur auf neue und aktualisierte Profile angewendet. Vorhandene Profile, die nicht aktualisiert werden, werden nicht an Dataplex gesendet.

  1. Erstellt eine private Tag-Vorlage mit dem Schema der Tags, die an Ihre BigQuery-Tabellen angehängt werden. Informationen zum Namen, zur ID und zum Speicherort der Tag-Vorlage finden Sie unter Details zur Tag-Vorlage.

    Nur Hauptkonten mit den entsprechenden Rollen und Berechtigungen können die Tag-Vorlage aufrufen.

  2. Es wird ein Tag für jede BigQuery-Tabelle erstellt, für die Sie ein Profil erstellen. Das Tag basiert auf der neu erstellten Tag-Vorlage.

    Ein an eine Tabelle angehängtes Ergebnis-Tag kann beispielsweise die folgenden Metadaten enthalten:

    Anzeigename Wert
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

Eine Tabelle hat zwei Tags, wenn sie über beide der folgenden Methoden ein Profil erhalten hat:

  • Eine Scankonfiguration auf Organisations- oder Ordnerebene
  • Eine Scankonfiguration auf Projektebene

Nachdem die Tabellen getaggt wurden, können Sie in Dataplex nach allen Daten in Ihrer Organisation oder Ihrem Projekt mit bestimmten Tag-Werten suchen.

Details zur Tag-Vorlage

Der Vorlagenname, die Vorlagen-ID und das Projekt, in dem die neue Tag-Vorlage gespeichert ist, hängen von der Ressource ab, auf die sich die Scankonfiguration bezieht.

  • Wenn es sich bei der Scankonfiguration um eine Konfiguration auf Organisations- oder Ordnerebene handelt, wird die Tag-Vorlage im Service-Agent-Container gespeichert. Der Name der Tag-Vorlage lautet Sensitive Data Profile. Die Vorlagen-ID lautet sensitive_data_profile.
  • Wenn es sich bei der Scankonfiguration um eine Konfiguration auf Projektebene handelt, wird die Tag-Vorlage im zu profilierenden Projekt gespeichert. Der Name der Tag-Vorlage lautet Sensitive Data Profile (Project). Die Vorlagen-ID lautet sensitive_data_profile_project.

Preise

Informationen dazu, wie andere Google Cloud-Dienste Ihnen möglicherweise Kosten für den Export von Datenprofilen in Rechnung stellen, finden Sie unter Preise für den Export von Datenprofilen.

BigQuery-Tabellen automatisch anhand von Datenprofilen taggen

  1. Erstellen Sie eine Scankonfiguration. Alternativ können Sie eine vorhandene Scankonfiguration bearbeiten.

  2. Achten Sie beim Schritt Aktionen hinzufügen darauf, dass Als Tags an Dataplex senden aktiviert ist.

    • Wenn Sie eine Scankonfiguration erstellen, ist diese Aktion standardmäßig aktiviert.
    • Wenn Sie eine Scankonfiguration bearbeiten, müssen Sie diese Aktion aktivieren.

Nachdem die Daten profiliert und getaggt wurden, können Sie in Dataplex nach getaggten Daten suchen.

Rollen und Berechtigungen zum Ansehen von Tags

In den Dataplex-Suchergebnissen werden nur die Daten angezeigt, auf die Sie Zugriff haben. Sie benötigen die folgenden IAM-Rollen oder -Berechtigungen (Identity and Access Management), um nach den Tags zu suchen, die an Ihre BigQuery-Tabellen angehängt sind.

Zweck Vordefinierte Rolle Relevante Berechtigungen
Vorlage für privates Tag ansehen Data Catalog-Tag-Vorlagen-Betrachter (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
Auf BigQuery-Tabellen angewendete Tags ansehen BigQuery Metadatenbetrachter (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

Weitere Informationen zu Dataplex-Rollen finden Sie unter Rollen zum Ansehen öffentlicher und privater Tags.

Informationen zum Zuweisen einer vordefinierten Rolle finden Sie unter Einzelne Rolle zuweisen. Wenn Sie anstelle einer vordefinierten Rolle eine benutzerdefinierte Rolle verwenden möchten, muss diese die entsprechenden Berechtigungen haben. Weitere Informationen finden Sie unter Benutzerdefinierte Rolle erstellen.

Generierte Tag-Vorlage suchen

  1. Rufen Sie in der Google Cloud Console die Seite Tag-Vorlagen von Dataplex auf.

    Zu Tag-Vorlagen

  2. Suchen Sie in der Liste nach der Tag-Vorlage. Informationen zum Namen, zur ID und zum Speicherort der Tag-Vorlage finden Sie unter Details zur Tag-Vorlage.

  3. Optional: Wenn Sie die Tag-Vorlage finden möchten, die von einer bestimmten Konfiguration für den explorativen Scan generiert wurde, geben Sie Folgendes in das Feld Filter ein:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID des Projekts, das mit der Scankonfiguration verknüpft ist. Wenn Sie ein Profil für Ihre Daten auf Organisations- oder Ordnerebene erstellt haben, geben Sie die Projekt-ID des Dienst-Agent-Containers ein.
    • TAG_TEMPLATE_ID: sensitive_data_profile, wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, sensitive_data_profile_project, wenn sie für ein Projekt gilt.

Generiertes Tag für ein bestimmtes Tabellendatenprofil finden

  1. Rufen Sie in der Google Cloud Console die Seite Dataplex Search auf.

    Zur Suche

  2. Geben Sie im Feld Suchen Folgendes ein:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    Ersetzen Sie Folgendes:

    • TABLE_ID: Die ID der Tabelle, für die das Profil erstellt wurde.
    • PROJECT_ID: die ID des Projekts, das die Tag-Vorlage enthält. Wenn Sie ein Profil für Ihre Daten auf Organisations- oder Ordnerebene erstellt haben, geben Sie die Projekt-ID des Dienst-Agent-Containers ein.
    • TAG_TEMPLATE_ID: sensitive_data_profile, wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, sensitive_data_profile_project, wenn sie für ein Projekt gilt.
  3. Klicken Sie in der Liste auf die Tabellen-ID. Die Details der BigQuery-Tabelle werden zusammen mit allen Sensitive Data Profile- oder Sensitive Data Profile (Project)-Tags angezeigt, die ihr zugeordnet sind.

    Eine Tabelle hat zwei Tags, wenn sie über beide der folgenden Methoden ein Profil erhalten hat:

    • Eine Scankonfiguration auf Organisations- oder Ordnerebene
    • Eine Scankonfiguration auf Projektebene

Informationen zum Durchsuchen der Data Catalog API finden Sie unter In Datenassets suchen.

Beispiele für Suchanfragen

In diesem Abschnitt finden Sie Beispielsuchanfragen, mit denen Sie in Dataplex nach Daten in Ihrer Organisation oder Ihrem Projekt mit bestimmten Tag-Werten suchen können.

Sie sehen nur die Daten, auf die Sie Zugriff haben. Der Datenzugriff wird über IAM-Berechtigungen gesteuert. Weitere Informationen finden Sie auf dieser Seite unter Rollen und Berechtigungen zum Ansehen von Tags.

Sie können diese Abfragen in der Google Cloud Console auf der Seite Dataplex Search eingeben.

Zur Suche

Informationen zum Formulieren von Abfragen finden Sie unter Data Catalog-Suchsyntax. Informationen zum Durchsuchen der Data Catalog API finden Sie unter So suchen Sie nach Daten-Assets.

Alle Tabellen finden, die mit der neuen Tag-Vorlage getaggt sind

tag:PROJECT_ID.TAG_TEMPLATE_ID

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID des Projekts, das die Tag-Vorlage enthält. Wenn Sie ein Profil für Ihre Daten auf Organisations- oder Ordnerebene erstellt haben, geben Sie die Projekt-ID des Dienst-Agent-Containers ein.
  • TAG_TEMPLATE_ID: sensitive_data_profile, wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, sensitive_data_profile_project, wenn sie für ein Projekt gilt.

Die nachfolgenden Beispiele auf dieser Seite enthalten keine Projekt-ID. Daher erhalten Sie möglicherweise Ergebnisse, die mit verschiedenen Konfigurationen für Discovery-Scans verknüpft sind. Wenn Sie die Ergebnisse auf eine bestimmte Scankonfiguration beschränken möchten, fügen Sie der Abfrage wie in diesem Beispiel die Projekt-ID hinzu.

Alle Tabellen finden, für die vor einem bestimmten Datum ein Profil erstellt wurde

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile, wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, sensitive_data_profile_project, wenn sie für ein Projekt gilt.
  • DATE: ein Datum im Format YYYY-MM-DD, z. B. 2023-01-15.

Alle Tabellen mit einer bestimmten Vertraulichkeitsstufe auf Tabellenebene finden

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile, wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, sensitive_data_profile_project, wenn sie für ein Projekt gilt.
  • SENSITIVITY_SCORE: Entweder HIGH, MODERATE oder LOW.

Weitere Informationen finden Sie unter Datenrisiko- und Vertraulichkeitsstufen.

Alle Tabellen mit einer bestimmten Datenrisikostufe finden

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile, wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, sensitive_data_profile_project, wenn sie für ein Projekt gilt.
  • DATA_RISK_LEVEL: Entweder HIGH, MODERATE oder LOW.

Weitere Informationen finden Sie unter Datenrisiko- und Vertraulichkeitsstufen.

Alle Tabellen mit einem bestimmten vorhergesagten infoType finden

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile, wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, sensitive_data_profile_project, wenn sie für ein Projekt gilt.
  • INFOTYPE: der „infoType“, z. B. PERSON_NAME.

Eine Liste aller integrierten infoTypes finden Sie in der InfoType-Detektorreferenz.

Weitere Informationen finden Sie unter Vorhergesagter infoType in der Referenz zu Messwerten.

Alle Tabellen finden, die teilweise einen bestimmten infoType enthalten

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile, wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, sensitive_data_profile_project, wenn sie für ein Projekt gilt.
  • INFOTYPE: der „infoType“, z. B. PERSON_NAME.

Eine Liste aller integrierten infoTypes finden Sie in der InfoType-Detektorreferenz.

Weitere Informationen finden Sie in der Referenz zu Messwerten unter Weitere infoTypes.

Alle Tabellen finden, die eine bestimmte Spalte mit einem bestimmten prognostizierten infoType enthalten

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile, wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, sensitive_data_profile_project, wenn sie für ein Projekt gilt.
  • COLUMN_NAME: Der Name der Spalte in der BigQuery-Tabelle.
  • INFOTYPE: der „infoType“, z. B. PERSON_NAME.

Eine Liste aller integrierten infoTypes finden Sie in der InfoType-Detektorreferenz.

Weitere Informationen finden Sie unter Vorhergesagter infoType in der Referenz zu Messwerten.

Alle Tabellen finden, die eine bestimmte Spalte mit einem bestimmten Vertraulichkeitsfaktor auf Spaltenebene enthalten

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile, wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, sensitive_data_profile_project, wenn sie für ein Projekt gilt.
  • COLUMN_NAME: Der Name der Spalte in der BigQuery-Tabelle.
  • SENSITIVITY_SCORE: Entweder HIGH, MODERATE oder LOW.

Weitere Informationen finden Sie unter Datenrisiko- und Vertraulichkeitsstufen.

Abgeschnittene Tag-Werte

Wenn die Daten der Spaltenüberschrift einer BigQuery-Tabelle 10 MB überschreiten, wird im Feld Column Insights oder Column Sensitivity möglicherweise [TRUNCATED] im resultierenden Tag angezeigt. In diesem Fall empfehlen wir Ihnen, unter „Schutz sensibler Daten“ das Tabellendatenprofil und die zugehörigen Spaltendatenprofile zu prüfen.