Datenprofilstatistiken mit Scans generieren

In diesem Dokument wird erläutert, wie Sie BigQuery und Dataplex gemeinsam verwenden, um Ihre Daten besser zu verstehen. BigQuery verwendet Dataplex, um die statistischen Merkmale Ihrer Daten zu analysieren, z. B. Durchschnittswerte, eindeutige Werte und Höchstwerte. Dataplex verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.

Weitere Informationen zur Datenprofilerstellung finden Sie unter Datenprofilerstellung.

Hinweise

  • Zum Erstellen und Ändern von Scans in Ihrem Projekt: Aktivieren Sie die Dataplex API.

    Dataplex API aktivieren

  • Erstellen Sie für projektübergreifende Scans eine Dataplex-Dienst-ID mit dem Befehl gcloud beta services identity create. Wenn keine Dataplex-Dienst-ID vorhanden ist, gibt dieser Befehl eine neue ID zurück. Wenn bereits eine Dienst-ID vorhanden ist, gibt der Befehl die vorhandene Kennzeichnung zurück. Mit diesem Befehl werden Sie möglicherweise aufgefordert, die Komponente gcloud CLI Beta-Befehle zu installieren.

    gcloud beta services identity create
    --service=dataplex.googleapis.com
    

Erforderliche Rollen

Bitten Sie Ihren Administrator, den entsprechenden Kontohauptkonten die folgenden Rollen je nach Anwendungsfall zuzuweisen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

BigQuery-Rollen

  • BigQuery-Data Viewer für eine Tabelle, um die Ergebnisse dieser Tabelle zu scannen, ohne die Ergebnisse zu veröffentlichen.
  • BigQuery Data Editor für eine Tabelle, um in dieser Tabelle einen Scan zu veröffentlichen.
  • Wenn sich die BigQuery-Tabelle und der Datenprofilscan in verschiedenen Projekten befinden, müssen Sie dem zugehörigen Hauptkonto oder Dataplex-Dienstkonto die Leseberechtigung bigquery.tables.getData (oder die Rolle BigQuery Data Viewer) für die entsprechende BigQuery-Tabelle erteilen. Informationen zum Abrufen der Dienstidentität für ein Dienstkonto finden Sie unter Vorbereitung.
  • Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex-Dienstkonto die Cloud Storage-Rolle (roles/storage.objectViewer) zu.

Dataplex-Rollen

  • Dataplex DataScan-Administrator auf Projektebene, um Scans zu erstellen.
  • Dataplex DataScan Editor bei einem Scan: Zum Bearbeiten aller Attribute eines Scans (außer Berechtigungen) führen Sie den Scan aus und löschen den Scan.
  • Dataplex DataScan DataViewer für einen Scan, um die Ergebnisse eines Scans aufzurufen.

Diese Rollen enthalten die Berechtigungen, die für die vorherigen Anwendungsfälle erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um verschiedene Aspekte der Datenprofilscans zu verwenden:

  • So ändern Sie die Konfiguration eines Datenscans: dataplex.datascans.update – für die DataScan-Ressource
  • So ändern Sie die Richtlinie eines Datenscans: dataplex.datascans.setIamPolicy – für die Datascan-Ressource
  • So erstellen Sie einen Datenscan für eine BigQuery-Tabelle: bigquery.tables.getData – Die zu scannende Tabelle
  • So erstellen Sie Datenscans in einem Projekt: dataplex.datascans.create – für das Projekt
  • So löschen Sie einen Datenscan: dataplex.datascans.delete – für die DataScan-Ressource
  • So exportieren Sie die Datenscanergebnisse in ein BigQuery-Dataset: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData – das Ziel-Dataset
  • So veröffentlichen Sie die Ergebnisse eines Datenscans in einer Tabelle: bigquery.tables.update - die Zieltabelle
  • So führen Sie einen Datenscan aus: dataplex.datascans.run – für die DataScan-Ressource
  • So scannen Sie eine externe Tabelle aus Cloud Storage: storage.buckets.get, storage.objects.get: der Bucket mit den zu scannenden Tabellen
  • So rufen Sie die Ergebnisse eines Datenscans auf: dataplex.datascans.getData – für die Datenscan-Ressource
  • So rufen Sie die Ergebnisse eines Datenscans auf: dataplex.datascans.get für die DataScan-Ressource
  • So zeigen Sie die Ergebnisse eines Datenscans an: dataplex.datascans.list – für die Datascan-Ressource

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Datenprofilscan erstellen

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

    BigQuery aufrufen

  2. Klicken Sie im Bereich Explorer auf eine Tabelle für den Datenprofilscan.

  3. Klicken Sie auf den Tab Datenprofil.

  4. Klicken Sie auf Datenprofilscan > Neuen Scan erstellen.

  5. Optional: Bearbeiten Sie die folgenden Werte:

    • Anzeigename: Der änderbare Name der Ressource in der Console.
    • ID: Eine eindeutige Kennung für den Scan. Nachdem der Scan erstellt wurde, kann er nicht mehr geändert werden.
    • Beschreibung: Eine Beschreibung des Scans.
    • Region: Definiert die Region, in der der Datenscan verarbeitet wird.
    • Umfang: Der Datenbereich, der zum Scannen verfügbar ist. Wählen Sie entweder Inkrementell oder Gesamte Daten aus. Wenn Sie Inkrementell auswählen, empfehlen wir, die Spalte DATE oder TIMESTAMP aufzunehmen, die linear erhöht wird. Diese Spalte kann zur Identifizierung neuer Einträge verwendet werden. Für Tabellen, die nach Spalten des Typs DATE oder TIMESTAMP partitioniert sind, wird empfohlen, die Partitionsspalte als Zeitstempelfeld zu verwenden.
    • Filter: Filter, die auf die Daten angewendet werden sollen, bevor der Scan ausgeführt wird. Sie können Zeilen filtern, Spalten filtern oder beides auswählen.
      • Klicken Sie zum Filtern von Zeilen das Kästchen Zeilen filtern an und geben Sie einen gültigen SQL-Ausdruck in das Eingabetextfeld ein. Der Ausdruck muss in der BigQuery-Standard-SQL-Syntax enthalten sein und kann in einer WHERE-Klausel verwendet werden.
      • Wenn Sie Spalten filtern möchten, klicken Sie auf das Kästchen Spalten filtern und füllen Sie das Feld Spalten einschließen, Spalten ausschließen oder beide aus.
    • Probegröße: Der Prozentsatz der Daten, die Sie abrufen möchten. Bei inkrementellen Datenscans wird nur die letzte Stichprobe erfasst.
    • Veröffentlichen Sie die Ergebnisse in der BigQuery- und Dataplex-Katalog-UI: Diese Option stellt die neuesten Ergebnisse des Scans der Datenprofilerstellung in der BigQuery-UI unter dem Tab Datenprofil für die Quelltabelle zur Verfügung. Wenn ein Scan ausgeführt wird und für die Veröffentlichung festgelegt ist, ist diese Option möglicherweise nicht verfügbar.
    • Zeitplan: entweder On-Demand (Standard) oder Wiederholung. Wenn Sie Wiederholen auswählen, geben Sie die Häufigkeit des geplanten Scans mit Täglich, Wöchentlich, Monatlich oder Benutzerdefiniert an. Bei der Verwendung von Custom wird das Cron-Zeitformat verwendet, um den Zeitplan anzugeben. Ein Scan, der am zweiten Dienstag des Monats um 1:00 Uhr ausgeführt wird, sieht beispielsweise so aus: 0 1 8-14 * 2.
  6. Optional: Wenn Sie den Bereich öffnen möchten, um weitere optionale Einstellungen anzuzeigen, klicken Sie auf Weiter und bearbeiten Sie die folgenden Werte:

    • Scanergebnisse in BigQuery-Tabelle exportieren: Wählen Sie ein BigQuery-Dataset und eine Tabelle aus, um die Ergebnisse des Profilscans zu speichern. Wenn ein Dataset, aber keine Tabelle definiert ist, erstellt Dataplex eine Tabelle für Sie. Für Tabellen, die in dieser Weise erstellt werden, können Speicherkosten anfallen.
    • Labels: Fügen Sie ein Label zum Scan hinzu.
  7. Klicken Sie je nach Ihren Anforderungen auf eine der folgenden Schaltflächen:

    • Klicken Sie auf Erstellen, um die Scaneinstellungen zu speichern.
    • Klicken Sie auf Ausführen, um den Scan zu speichern und auszuführen.

Berechtigungen zum Scannen von Datenprofilen verwalten

So ändern Sie die Zugriffsberechtigungen vorhandener Profilscans:

  1. Wechseln Sie zur BigQuery-Seite.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer eine Tabelle für den Datenprofilscan aus.

  3. Klicken Sie auf den Tab Datenprofil.

  4. Klicken Sie auf Datenprofilscan > Scanberechtigungen verwalten. Dadurch wird Dataplex in einem neuen Tab geöffnet.

  5. Klicken Sie auf den Tab Berechtigungen.

    • Klicken Sie zum Gewähren des Zugriffs auf ein Hauptkonto auf Zugriff gewähren und weisen Sie dem zugehörigen Hauptkonto Dataplex DataScan DataViewer zu.
    • Klicken Sie zum Entfernen des Zugriffs von einem Hauptkonto auf Zugriff entfernen und entfernen Sie Dataplex DataScan DataViewer aus dem zugehörigen Hauptkonto.

Vorhandenen Datenprofil-Scan bearbeiten

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer eine Tabelle für den Datenprofilscan aus.

  3. Klicken Sie auf Datenprofilscan > Scankonfiguration bearbeiten.

Dadurch werden die Scaneinstellungen des Datenprofils geöffnet, die geändert und für zukünftige Scans gespeichert werden können.

Ergebnisse des Datenprofilscans ansehen

Es gibt mehrere Möglichkeiten, die Ergebnisse von Datenprofilscans anzusehen. Wählen Sie die Option aus, die für Ihre Bedürfnisse am besten geeignet ist.

Veröffentlichte Ergebnisse ansehen

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer eine Tabelle für den Datenprofilscan aus.

  3. Klicken Sie auf den Tab Datenprofil.

Die zuletzt veröffentlichten Ergebnisse werden in dieser Ansicht angezeigt.

Historische Scanergebnisse ansehen

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer eine Tabelle für den Datenprofilscan aus.

  3. Klicken Sie auf den Tab Datenprofil.

  4. Klicken Sie auf Datenprofilscan > Historische Ergebnisse ansehen.

Alle Scans von Datenprofilen in einer Tabelle ansehen

So öffnen Sie Dataplex mit einem Scanverlauf für eine bestimmte Tabelle:

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

    BigQuery aufrufen

  2. Wählen Sie im Bereich Explorer eine Tabelle für den Datenprofilscan aus.

  3. Klicken Sie auf Datenprofilscan > Alle Scans ansehen.