Datenprofile analysieren

Wenn Sie den Dienst zur Erkennung sensibler Daten so konfiguriert haben, dass alle erfolgreich generierten Datenprofile an BigQuery gesendet werden, können Sie diese Datenprofile abfragen, um Informationen zu Ihren Daten zu erhalten. Mit Visualisierungstools wie Looker Studio können Sie auch benutzerdefinierte Berichte erstellen, die auf Ihre Geschäftsanforderungen zugeschnitten sind. Alternativ können Sie einen vorgefertigten Bericht zum Schutz sensibler Daten verwenden, ihn anpassen und nach Bedarf teilen.

Diese Seite enthält Beispiel-SQL-Abfragen, mit denen Sie mehr über Ihre Datenprofile erfahren können. Außerdem erfahren Sie, wie Sie Datenprofile in Looker Studio visualisieren.

Weitere Informationen zu Datenprofilen finden Sie unter Datenprofile.

Hinweise

Auf dieser Seite wird davon ausgegangen, dass Sie die Profilerstellung auf Organisations-, Ordner- oder Projektebene konfiguriert haben. Aktivieren Sie in Ihrer Konfiguration den Datenprofilexport, indem Sie auf die Ein-/Aus-Schaltfläche Datenprofilkopien in BigQuery speichern klicken.

In diesem Dokument wird die Tabelle mit den exportierten Datenprofilen als Ausgabetabelle bezeichnet.

Achten Sie darauf, dass die Projekt-ID, die Dataset-ID und die Tabellen-ID der Ausgabetabelle verfügbar sind. Sie benötigen sie, um die Schritte auf dieser Seite auszuführen.

Ansicht latest

Wenn der Schutz sensibler Daten Datenprofile in Ihre Ausgabetabelle exportiert, wird auch die Ansicht latest erstellt. Diese Ansicht ist eine vorgefilterte virtuelle Tabelle, die nur die neuesten Snapshots Ihrer Datenprofile enthält. Die Ansicht latest hat das gleiche Schema wie die Ausgabetabelle, sodass Sie die beiden in Ihren SQL-Abfragen und Looker Studio-Berichten austauschbar verwenden können. Die Ergebnisse können abweichen, da die Ausgabetabelle ältere Snapshots der Datenprofile enthält.

Die Ansicht latest wird am selben Speicherort wie die Ausgabetabelle gespeichert. Der Name hat folgendes Format:

OUTPUT_TABLE_latest_VERSION

Ersetzen Sie Folgendes:

  • OUTPUT_TABLE: die ID der Tabelle, die die exportierten Datenprofile enthält.
  • VERSION: die Versionsnummer der Ansicht.

Wenn der Name Ihrer Ausgabetabelle beispielsweise table-profile lautet, hat die Ansicht latest einen Namen wie table-profile_latest_v1.

Letzte Ansicht

Wenn Sie die Ansicht latest in SQL-Abfragen verwenden, verwenden Sie den vollständigen Namen der Ansicht. Dieser enthält die Projekt-ID, die Dataset-ID, die Tabellen-ID und das Suffix, z. B. myproject.mydataset.table-profile_latest_v1.

PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION

Zwischen der Ausgabetabelle und der Ansicht latest wählen

Die Ansicht latest enthält nur die neuesten Datenprofil-Snapshots. Die Ausgabetabelle enthält alle Datenprofil-Snapshots, einschließlich veralteter Snapshots. Eine Abfrage für die Ausgabetabelle kann beispielsweise mehrere Spaltendatenprofile für dieselbe Spalte zurückgeben – eines für jede Spalte, für die ein Profil für diese Spalte erstellt wurde.

Berücksichtigen Sie Folgendes, wenn Sie in Ihren SQL-Abfragen oder Looker Studio-Berichten zwischen der Ausgabetabelle und der Ansicht latest wählen:

  • Die Ansicht latest ist nützlich, wenn Sie Tabellen haben, für die ein neues Profil erstellt wurde, und Sie nur die neuesten Profile und nicht ihre älteren Versionen sehen möchten. Sie möchten also den aktuellen Status Ihrer Profildaten sehen.

  • Die Ausgabetabelle ist nützlich, wenn Sie eine Verlaufsansicht Ihrer Profildaten abrufen möchten. Sie möchten beispielsweise feststellen, ob Ihre Organisation jemals einen bestimmten infoType gespeichert hat, oder die Änderungen sehen, die an einem bestimmten Datenprofil vorgenommen wurden.

SQL-Beispielabfragen

Dieser Abschnitt enthält Beispielabfragen, die Sie bei der Analyse von Datenprofilen verwenden können. Informationen zum Ausführen dieser Abfragen finden Sie unter Interaktive Abfragen ausführen.

Ersetzen Sie TABLE_OR_VIEW in den folgenden Beispielen durch einen der folgenden Werte:

  • Der Name der Ausgabetabelle, also die Tabelle, die die exportierten Datenprofile enthält, z. B. myproject.mydataset.table-profile.
  • Der Name der Ansicht latest der Ausgabetabelle, z. B. myproject.mydataset.table-profile_latest_v1.

In beiden Fällen müssen Sie die Projekt-ID und die Dataset-ID angeben.

Weitere Informationen finden Sie auf dieser Seite unter Zwischen der Ausgabetabelle und der Ansicht latest auswählen.

Informationen zur Behebung von Fehlern finden Sie unter Fehlermeldungen.

Alle Spalten auflisten, die einen hohen Freitextwert und Hinweise auf andere infoType-Übereinstimmungen haben

SELECT
  column_profile.table_full_resource,
  column_profile.COLUMN,
  other_matches.info_type.name,
  column_profile.profile_last_generated
FROM
   `TABLE_OR_VIEW`,
  UNNEST(column_profile.other_matches) AS other_matches
WHERE
  column_profile.free_text_score = 1
  AND ( column_profile.column_info_type.info_type.name>""
    OR ARRAY_LENGTH(column_profile.other_matches)>0 )

Informationen zum Beheben dieser Ergebnisse finden Sie unter Hoher Freitextwert.

Weitere Informationen zu den Messwerten Freitextwert und Andere infoTypes finden Sie unter Spaltendatenprofile.

Alle Tabellen auflisten, die eine Spalte mit Kreditkartennummern enthalten

SELECT
  column_profile.table_full_resource,
  column_profile.profile_last_generated
FROM
  `TABLE_OR_VIEW`
WHERE
  column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"

CREDIT_CARD_NUMBER ist ein integrierter infoType, der eine Kreditkartennummer darstellt.

Informationen zum Beheben dieser Ergebnisse finden Sie unter Hohes Datenrisiko.

Tabellenprofile auflisten, die Spalten mit Kreditkartennummern, Sozialversicherungsnummern und Personennamen enthalten

SELECT
  table_full_resource,
  COUNT(*) AS count_findings
FROM (
  SELECT
    DISTINCT column_profile.table_full_resource,
    column_profile.column_info_type.info_type.name
  FROM
    `TABLE_OR_VIEW`
  WHERE
    column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
      'CREDIT_CARD_NUMBER',
      'US_SOCIAL_SECURITY_NUMBER')
  ORDER BY
    column_profile.table_full_resource ) ot1
GROUP BY
  table_full_resource
  #increase this number to match the total distinct infoTypes that must be present
HAVING
  count_findings>=3

Diese Abfrage verwendet die folgenden integrierten infoTypes:

  • CREDIT_CARD_NUMBER: für eine Kreditkartennummer
  • PERSON_NAME: steht für den vollständigen Namen einer Person
  • US_SOCIAL_SECURITY_NUMBER steht für eine US-amerikanische Sozialversicherungsnummer

Informationen zum Beheben dieser Ergebnisse finden Sie unter Hohes Datenrisiko.

Datenprofile in Looker Studio verwenden

Zur Visualisierung Ihrer Datenprofile in Looker Studio können Sie einen vordefinierten Bericht verwenden oder einen eigenen erstellen.

Vordefinierten Bericht verwenden

Der Schutz sensibler Daten bietet einen vordefinierten Looker Studio-Bericht, der umfassende Informationen aus Datenprofilen enthält. Das Dashboard zum Schutz sensibler Daten ist ein mehrseitiger Bericht, der Ihnen einen schnellen Überblick über Ihre Datenprofile, einschließlich Aufschlüsselungen nach Risiko, nach infoType und Standort, bietet. Erkunden Sie die anderen Tabs, um Ansichten nach geografischer Region und Positionsrisiko anzuzeigen oder zu bestimmten Messwerten aufzuschlüsseln. Sie können den Bericht unverändert verwenden oder anpassen. Dies ist die empfohlene Version des vorgefertigten Berichts.

Um den vorgefertigten Bericht mit Ihren Daten aufzurufen, geben Sie die erforderlichen Werte in die folgende URL ein. Kopieren Sie dann die URL in Ihren Browser.

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Ersetzen Sie Folgendes:

  • PROJECT_ID: das Projekt, das die Ausgabetabelle enthält.
  • DATASET_ID: Das Dataset, das die Ausgabetabelle enthält.
  • TABLE_OR_VIEW: eine der folgenden Optionen:

    • Der Name der Ausgabetabelle, also die Tabelle, die die exportierten Datenprofile enthält, z. B. myproject.mydataset.table-profile.
    • Der Name der Ansicht latest der Ausgabetabelle, z. B. myproject.mydataset.table-profile_latest_v1.

    Weitere Informationen finden Sie auf dieser Seite unter Zwischen der Ausgabetabelle und der Ansicht latest auswählen.

Es kann einige Minuten dauern, bis Looker Studio den Bericht mit Ihren Daten lädt.

Im folgenden Beispiel zeigt das Dashboard, dass Daten zu niedriger und hoher Empfindlichkeit in mehreren Ländern weltweit vorhanden sind.

Vordefinierter Bericht

Frühere Version des vorgefertigten Berichts

Die erste Version des vorgefertigten Berichts ist weiterhin unter der folgenden Adresse verfügbar:

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Bericht erstellen

In Looker Studio können Sie interaktive Berichte erstellen. In diesem Abschnitt erstellen Sie in Looker Studio einen einfachen Tabellenbericht, der auf den Datenprofilen basiert, die in Ihre Ausgabetabelle in BigQuery exportiert wurden.

Achten Sie darauf, dass die Projekt-ID, die Dataset-ID und die Tabellen-ID der Ausgabetabelle oder die Ansicht latest verfügbar sind. Sie benötigen sie, um diesen Vorgang auszuführen.

In diesem Beispiel wird gezeigt, wie Sie einen Bericht erstellen, der eine Tabelle enthält, die jeden in Ihren Datenprofilen gemeldeten infoType und die entsprechende Häufigkeit enthält.

Im Allgemeinen fallen BigQuery-Nutzungskosten an, wenn Sie über Looker Studio auf BigQuery zugreifen. Weitere Informationen finden Sie unter BigQuery-Daten mit Looker Studio visualisieren.

So erstellen Sie einen Bericht:

  1. Öffnen Sie Looker Studio und melden Sie sich an.
  2. Klicken Sie auf Leerer Bericht.
  3. Klicken Sie auf dem Tab Datenverbindung herstellen auf die Karte BigQuery.
  4. Autorisieren Sie Looker Studio, wenn Sie dazu aufgefordert werden, auf Ihre BigQuery-Projekte zuzugreifen.
  5. So stellen Sie eine Verbindung zu Ihren BigQuery-Daten her:

    1. Wählen Sie unter Projekt das Projekt aus, das die Ausgabetabelle enthält. Sie können auf den Tabs Letzte Projekte, Meine Projekte und Freigegebene Projekte nach dem Projekt suchen.
    2. Wählen Sie unter Dataset das Dataset aus, das die Ausgabetabelle enthält.
    3. Wählen Sie für Tabelle entweder die Ausgabetabelle oder die latest-Ansicht der Ausgabetabelle aus.

      Weitere Informationen finden Sie auf dieser Seite unter Zwischen der Ausgabetabelle und der Ansicht latest auswählen.

    4. Klicken Sie auf Hinzufügen.

    5. Klicken Sie im angezeigten Dialogfeld auf Zum Bericht hinzufügen.

      Ein Bericht wird erstellt. Eine Tabelle mit Tabellendatenprofilen und der zugehörigen Anzahl von Datensätzen wird angezeigt.

  6. Führen Sie die folgenden Schritte aus, um eine Tabelle hinzuzufügen, die jeden gemeldeten infoType und die entsprechende Häufigkeit (Datensatzanzahl) anzeigt:

    1. Klicken Sie auf Diagramm hinzufügen.
    2. Wählen Sie einen Tabellenstil aus.
    3. Klicken Sie auf den Bereich, in dem Sie das Diagramm positionieren möchten.

      Das Diagramm wird im Tabellenformat angezeigt.

    4. Passen Sie die Größe der Tabelle nach Bedarf an.

      Solange die Tabelle ausgewählt ist, werden ihre Eigenschaften im Bereich Diagramm > Tabelle angezeigt.

    5. Entfernen Sie im Bereich Diagramm > Tabelle auf dem Tab Daten im Feld Dimension die vorhandene Dimension.

    6. Klicken Sie auf Dimension hinzufügen.

    7. Suchen Sie nach column_profile.column_info_type.info_type.name und wählen Sie es aus.

    Die resultierende Tabelle sieht in etwa so aus:

    Eine Tabelle mit den erkannten infoTypes und ihren entsprechenden Häufigkeiten

Weitere Informationen zu Tabellen in Looker Studio

Nächste Schritte

remediate von Datenprofilergebnissen