Datenprofile analysieren

Wenn Sie den Dienst zur Erkennung sensibler Daten so konfiguriert haben, dass alle erfolgreich generierten Datenprofile an BigQuery gesendet werden, können Sie diese Datenprofile abfragen, um Statistiken zu Ihren Daten zu erhalten. Mit Visualisierungstools wie Looker Studio können Sie auch benutzerdefinierte Berichte erstellen, die auf Ihre geschäftlichen Anforderungen zugeschnitten sind. Alternativ können Sie einen vordefinierten Bericht verwenden, den der Sensitive Data Protection-Dienst zur Verfügung stellt, ihn anpassen und bei Bedarf freigeben.

Auf dieser Seite finden Sie Beispiel-SQL-Abfragen, mit denen Sie mehr über Ihre Datenprofile erfahren können. Außerdem erfahren Sie, wie Sie Datenprofile in Looker Studio visualisieren können.

Weitere Informationen zu Datenprofilen finden Sie unter Datenprofile.

Hinweise

Auf dieser Seite wird davon ausgegangen, dass Sie die Profilierung auf Organisations-, Ordner- oder Projektebene konfiguriert haben. Aktivieren Sie in der Konfiguration des explorativen Scans den Export von Datenprofilen, indem Sie auf die Ein/Aus-Schaltfläche Datenprofilkopien in BigQuery speichern klicken. Weitere Informationen zum Erstellen einer Konfigurationsdatei für den explorativen Scan finden Sie unter Scankonfiguration erstellen.

In diesem Dokument wird die Tabelle, die die exportierten Datenprofile enthält, als Ausgabetabelle bezeichnet.

Notieren Sie sich die Projekt-ID, die Dataset-ID und die Tabellen-ID der Ausgabetabelle. Sie benötigen sie, um die Verfahren auf dieser Seite ausführen zu können.

Ansicht latest

Wenn der Schutz sensibler Daten Datenprofile in Ihre Ausgabetabelle exportiert, wird auch die latest Ansicht erstellt. Diese Ansicht ist eine vordefinierte virtuelle Tabelle, die nur die neuesten Snapshots Ihrer Datenprofile enthält. Die latest-Ansicht hat dasselbe Schema wie die Ausgabetabelle. Sie können sie daher in Ihren SQL-Abfragen und Looker Studio-Berichten austauschbar verwenden. Die Ergebnisse können sich unterscheiden, da die Ausgabetabelle ältere Snapshots der Datenprofile enthält.

Die latest-Ansicht wird am selben Speicherort wie die Ausgabetabelle gespeichert. Der Name hat folgendes Format:

OUTPUT_TABLE_latest_VERSION

Ersetzen Sie Folgendes:

  • OUTPUT_TABLE: die ID der Tabelle, die die exportierten Datenprofile enthält.
  • VERSION: die Versionsnummer der Ansicht.

Wenn die Ausgabetabelle beispielsweise den Namen table-profile hat, hat die latest-Ansicht einen Namen wie table-profile_latest_v1.

Letzte Ansicht

Wenn Sie die Ansicht latest in SQL-Abfragen verwenden, verwenden Sie den vollständigen Namen der Ansicht, einschließlich Projekt-ID, Dataset-ID, Tabellen-ID und Suffix, z. B. myproject.mydataset.table-profile_latest_v1.

PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION

Zwischen Ausgabetabelle und latest-Ansicht wählen

Die Ansicht latest enthält nur die neuesten Datenprofil-Snapshots, während die Ausgabetabelle alle Datenprofil-Snapshots enthält, einschließlich veralteter Snapshots. Eine Abfrage in der Ausgabetabelle kann beispielsweise mehrere Spaltendatenprofile für dieselbe Spalte zurückgeben, jeweils eines für jede Profilierung der Spalte.

Wenn Sie sich entscheiden, ob Sie die Ausgabetabelle oder die latest-Ansicht in Ihren SQL-Abfragen oder Looker Studio-Berichten verwenden möchten, sollten Sie Folgendes berücksichtigen:

  • Die Ansicht latest ist nützlich, wenn Sie Daten-Assets haben, die neu profiliert wurden, und nur die neuesten Profile sehen möchten, nicht die älteren Versionen. Sie möchten also den aktuellen Status Ihrer profilierten Daten sehen.

  • Die Ausgabetabelle ist nützlich, wenn Sie einen Verlauf Ihrer profilierten Daten abrufen möchten. Angenommen, Sie möchten beispielsweise wissen, ob Ihre Organisation schon einmal einen bestimmten infoType gespeichert hat, oder Sie möchten die Änderungen sehen, die an einem bestimmten Datenprofil vorgenommen wurden.

SQL-Beispielabfragen

Dieser Abschnitt enthält Beispielabfragen, die Sie bei der Analyse von Datenprofilen verwenden können. Informationen zum Ausführen dieser Abfragen finden Sie unter Interaktive Abfragen ausführen.

Ersetzen Sie in den folgenden Beispielen TABLE_OR_VIEW durch einen der folgenden Werte:

  • Der Name der Ausgabetabelle, die die exportierten Datenprofile enthält, z. B. myproject.mydataset.table-profile.
  • Der Name der latest-Ansicht der Ausgabetabelle, z. B. myproject.mydataset.table-profile_latest_v1.

In beiden Fällen müssen Sie die Projekt-ID und die Datensatz-ID angeben.

Weitere Informationen finden Sie auf dieser Seite unter Zwischen der Ausgabetabelle und der Ansicht latest wählen.

Informationen zur Behebung von Fehlern finden Sie unter Fehlermeldungen.

Liste aller Spalten mit einem hohen Wert für freien Text und Hinweisen auf Übereinstimmungen mit anderen infoTypes

SELECT
  column_profile.table_full_resource,
  column_profile.COLUMN,
  other_matches.info_type.name,
  column_profile.profile_last_generated
FROM
   `TABLE_OR_VIEW`
  LEFT JOIN UNNEST(column_profile.other_matches) AS other_matches
WHERE
  column_profile.free_text_score = 1
  AND ( column_profile.column_info_type.info_type.name>""
    OR ARRAY_LENGTH(column_profile.other_matches)>0 )

Informationen zur Behebung dieser Probleme finden Sie unter Empfohlene Strategien zur Risikominimierung bei der Datenverarbeitung.

Weitere Informationen zu den Messwerten Bewertung für freien Text und Andere infoTypes finden Sie unter Spaltendatenprofile.

Alle Tabellen auflisten, die eine Spalte mit Kreditkartennummern enthalten

SELECT
  column_profile.table_full_resource,
  column_profile.profile_last_generated
FROM
  `TABLE_OR_VIEW`
WHERE
  column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"

CREDIT_CARD_NUMBER ist ein integrierter infoType, der eine Kreditkartennummer darstellt.

Informationen zur Behebung dieser Probleme finden Sie unter Empfohlene Strategien zur Risikominimierung bei der Datenverarbeitung.

Listentabellenprofile mit Spalten für Kreditkartennummern, US-Sozialversicherungsnummern und Personennamen auflisten

SELECT
  table_full_resource,
  COUNT(*) AS count_findings
FROM (
  SELECT
    DISTINCT column_profile.table_full_resource,
    column_profile.column_info_type.info_type.name
  FROM
    `TABLE_OR_VIEW`
  WHERE
    column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
      'CREDIT_CARD_NUMBER',
      'US_SOCIAL_SECURITY_NUMBER')
  ORDER BY
    column_profile.table_full_resource ) ot1
GROUP BY
  table_full_resource
  #increase this number to match the total distinct infoTypes that must be present
HAVING
  count_findings>=3

In dieser Abfrage werden die folgenden integrierten infoTypes verwendet:

  • CREDIT_CARD_NUMBER: Stellt eine Kreditkartennummer dar
  • PERSON_NAME: Der vollständige Name einer Person.
  • US_SOCIAL_SECURITY_NUMBER steht für eine US-amerikanische Sozialversicherungsnummer

Informationen zur Behebung dieser Probleme finden Sie unter Empfohlene Strategien zur Risikominimierung bei der Datenverarbeitung.

Buckets auflisten, bei denen der Vertraulichkeitsfaktor SENSITIVITY_HIGH ist

SELECT file_store_profile.file_store_path, file_store_profile.resource_visibility, file_store_profile.sensitivity_score
FROM `TABLE_OR_VIEW`
WHERE file_store_profile.sensitivity_score.score ='SENSITIVITY_HIGH'
;

Weitere Informationen finden Sie unter Datenprofile für Filestore.

Liste aller Bucketpfade, Cluster und Dateiendungen, die gescannt wurden und bei denen der Empfindlichkeitswert SENSITIVITY_HIGH ist

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions, file_store_profile.profile_last_generated.timestamp
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND summaries.sensitivity_score.score ='SENSITIVITY_HIGH'
GROUP BY 1, 2, 4
;

Weitere Informationen finden Sie unter Datenprofile für Filestore.

Liste aller Bucket-Pfade, Cluster und Dateiendungen, bei denen Kreditkartennummern erkannt wurden

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND info_types.info_type.name='CREDIT_CARD_NUMBER'
GROUP BY 1, 2
;

CREDIT_CARD_NUMBER ist ein integrierter infoType, der eine Kreditkartennummer darstellt.

Weitere Informationen finden Sie unter Datenprofile für Filestore.

Liste aller Bucketpfade, Cluster und Dateiendungen, bei denen eine Kreditkartennummer, ein Personenname oder eine US-Sozialversicherungsnummer erkannt wurde

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND info_types.info_type.name IN ('CREDIT_CARD_NUMBER', 'PERSON_NAME', 'US_SOCIAL_SECURITY_NUMBER')
GROUP BY 1, 2
;

In dieser Abfrage werden die folgenden integrierten infoTypes verwendet:

  • CREDIT_CARD_NUMBER: Stellt eine Kreditkartennummer dar
  • PERSON_NAME: Der vollständige Name einer Person.
  • US_SOCIAL_SECURITY_NUMBER steht für eine US-amerikanische Sozialversicherungsnummer

Weitere Informationen finden Sie unter Datenprofile für Filestore.

Mit Datenprofilen in Looker Studio arbeiten

Sie können Ihre Datenprofile in Looker Studio mit einem vorkonfigurierten Bericht oder mit einem selbst erstellten Bericht visualisieren.

Vordefinierten Bericht verwenden

Sensitive Data Protection bietet einen vorkonfigurierten Looker Studio-Bericht, in dem die umfangreichen Statistiken von Datenprofilen hervorgehoben werden. Das Dashboard zum Schutz sensibler Daten ist ein mehrseitiger Bericht, der Ihnen einen schnellen Überblick über Ihre Datenprofile bietet, einschließlich Aufschlüsselungen nach Risiko, nach infoType und nach Standort. Auf den anderen Tabs finden Sie Daten nach geografischer Region und Risikopotenzial der Körperhaltung oder können sich Details zu bestimmten Messwerten ansehen. Sie können diesen vordefinierten Bericht unverändert verwenden oder nach Bedarf anpassen. Dies ist die empfohlene Version des vordefinierten Berichts.

Wenn Sie den vordefinierten Bericht mit Ihren Daten aufrufen möchten, geben Sie die erforderlichen Werte in die folgende URL ein. Kopieren Sie dann die URL in Ihren Browser.

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Ersetzen Sie Folgendes:

  • PROJECT_ID: das Projekt, das die Ausgabetabelle enthält.
  • DATASET_ID: das Dataset, das die Ausgabetabelle enthält.
  • TABLE_OR_VIEW: eine der folgenden Optionen:

    • Der Name der Ausgabetabelle, die die exportierten Datenprofile enthält,z. B. myproject.mydataset.table-profile.
    • Der Name der latest-Ansicht der Ausgabetabelle, z. B. myproject.mydataset.table-profile_latest_v1.

    Weitere Informationen finden Sie auf dieser Seite unter Zwischen der Ausgabetabelle und der latest-Ansicht wählen.

Es kann einige Minuten dauern, bis Looker Studio den Bericht mit Ihren Daten geladen hat. Wenn Fehler auftreten oder der Bericht nicht geladen wird, lesen Sie den Hilfeartikel Fehlerbehebung für vordefinierte Berichte auf dieser Seite.

Im folgenden Beispiel zeigt das Dashboard, dass Daten mit geringer und hoher Sensibilität in mehreren Ländern auf der ganzen Welt vorhanden sind.

Vordefinierter Bericht

Frühere Version des vordefinierten Berichts

Die erste Version des vordefinierten Berichts ist weiterhin unter folgender Adresse verfügbar:

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Bericht erstellen

Mit Looker Studio können Sie interaktive Berichte erstellen. In diesem Abschnitt erstellen Sie in Looker Studio einen einfachen tabellarischen Bericht, der auf den Datenprofilen basiert, die in Ihre Ausgabetabelle in BigQuery exportiert wurden.

Notieren Sie sich die Projekt-ID, die Dataset-ID und die Tabellen-ID der Ausgabetabelle oder der latest-Ansicht. Sie benötigen sie, um diesen Vorgang auszuführen.

In diesem Beispiel wird gezeigt, wie Sie einen Bericht mit einer Tabelle erstellen, in der alle infoType in Ihren Datenprofilen und die entsprechende Häufigkeit aufgeführt sind.

Im Allgemeinen fallen Kosten für die BigQuery-Nutzung an, wenn Sie über Looker Studio auf BigQuery zugreifen. Weitere Informationen finden Sie unter BigQuery-Daten mit Looker Studio visualisieren.

So erstellen Sie einen Bericht:

  1. Öffnen Sie Looker Studio und melden Sie sich an.
  2. Klicken Sie auf Leerer Bericht.
  3. Klicken Sie auf dem Tab Datenverbindung herstellen auf die Karte BigQuery.
  4. Autorisieren Sie Looker Studio für den Zugriff auf Ihre BigQuery-Projekte, wenn Sie dazu aufgefordert werden.
  5. So stellen Sie eine Verbindung zu Ihren BigQuery-Daten her:

    1. Wählen Sie unter Project (Projekt) das Projekt aus, das die Ausgabetabelle enthält. Sie können auf den Tabs Letzte Projekte, Meine Projekte und Freigegebene Projekte nach dem Projekt suchen.
    2. Wählen Sie unter Dataset das Dataset aus, das die Ausgabetabelle enthält.
    3. Wählen Sie unter Tabelle entweder die Ausgabetabelle oder die latest-Ansicht der Ausgabetabelle aus.

      Weitere Informationen finden Sie auf dieser Seite unter Zwischen Ausgabetabelle und latest-Ansicht wählen.

    4. Klicken Sie auf Hinzufügen.

    5. Klicken Sie im angezeigten Dialogfeld auf Zum Bericht hinzufügen.

  6. So fügen Sie eine Tabelle hinzu, in der jeder erfasste infoType und die entsprechende Häufigkeit (Eintragsanzahl) angezeigt wird:

    1. Klicken Sie auf Diagramm hinzufügen.
    2. Wählen Sie einen Tabellenstil aus.
    3. Klicken Sie auf den Bereich, in dem Sie das Diagramm platzieren möchten.

      Das Diagramm wird im Tabellenformat angezeigt.

    4. Passen Sie die Größe der Tabelle nach Bedarf an.

      Solange die Tabelle ausgewählt ist, werden ihre Eigenschaften im Bereich Diagramm angezeigt.

    5. Entfernen Sie im Bereich Diagramm auf dem Tab Einrichtung alle vorausgewählten Dimensionen und Messwerte.

    6. Fügen Sie für Dimension column_profile.column_info_type.info_type.name oder file_store_profile.file_cluster_summaries.file_store_info_type_summaries.info_type.name hinzu.

      Diese Beispiele enthalten Daten auf Spalten- und Dateiclusterebene. Sie können auch andere Dimensionen ausprobieren. Sie können beispielsweise Dimensionen auf Tabellen- und Bucket-Ebene verwenden.

    7. Fügen Sie unter Messwert die Option Datensatzanzahl hinzu.

    Die resultierende Tabelle sieht in etwa so aus:

    Eine Tabelle mit den erkannten infoTypes und der entsprechenden Anzahl von Einträgen

Weitere Informationen zu Tabellen in Looker Studio

Fehler mit dem vordefinierten Bericht beheben

Wenn beim Laden des vordefinierten Berichts Fehler, fehlende Steuerelemente oder fehlende Diagramme angezeigt werden, prüfen Sie, ob die neuesten Felder verwendet werden:

  • Wenn Ihr vordefinierter Bericht mit der Ausgabetabelle verknüpft ist, prüfen Sie, ob diese Tabelle mit einer aktiven Konfiguration für den explorativen Scan verknüpft ist. Informationen zum Aufrufen der Einstellungen Ihrer Scankonfigurationen finden Sie unter Scankonfiguration aufrufen.

  • Wenn Ihr vordefinierter Bericht mit der latest-Ansicht verknüpft ist, prüfen Sie, ob diese Ansicht noch in BigQuery vorhanden ist. Wenn ja, versuchen Sie, die Ansicht zu ändern. Alternativ können Sie eine Kopie der Datenansicht erstellen und den vordefinierten Bericht mit dieser Kopie verknüpfen. Weitere Informationen zur latest-Ansicht finden Sie auf dieser Seite unter latest-Ansicht.

Wenn Sie nach diesen Schritten weiterhin Fehler sehen, wenden Sie sich an den Cloud Customer Care.

Nächste Schritte

Hier erfahren Sie, wie Sie Ergebnisse aus Datenprofilen korrigieren können.