Datenqualität mit Scans überwachen
In diesem Dokument wird erläutert, wie Sie BigQuery und Dataplex zusammen verwenden, um sicherzustellen, dass die Daten Ihren Qualitätserwartungen entsprechen. BigQuery verwendet Dataplex, um kontinuierliche Datenprüfungen zu definieren, Ergebnisse zu überwachen und Probleme mit der Datenqualität zu beheben.
Weitere Informationen zur automatischen Datenqualität finden Sie unter Automatische Datenqualität.
Vorbereitung
Zum Erstellen und Ändern von Scans in Ihrem Projekt: Aktivieren Sie die Dataplex API.
Erstellen Sie für projektübergreifende Scans eine Dataplex-Dienst-ID mit dem Befehl
gcloud beta services identity create
. Wenn keine Dataplex-Dienst-ID vorhanden ist, gibt dieser Befehl eine neue ID zurück. Wenn bereits eine Dienst-ID vorhanden ist, gibt der Befehl die vorhandene Kennzeichnung zurück. Mit diesem Befehl werden Sie möglicherweise aufgefordert, die Komponente gcloud CLI Beta-Befehle zu installieren.gcloud beta services identity create --service=dataplex.googleapis.com
Erforderliche Rollen
Bitten Sie Ihren Administrator, den entsprechenden Kontohauptkonten die folgenden Rollen je nach Anwendungsfall zuzuweisen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
BigQuery-Rollen
- BigQuery-Data Viewer für eine Tabelle, um die Ergebnisse dieser Tabelle zu scannen, ohne die Ergebnisse zu veröffentlichen.
- BigQuery Data Editor für eine Tabelle, um in dieser Tabelle einen Scan zu veröffentlichen.
- Wenn sich die BigQuery-Tabelle und der Datenqualitätsscan in verschiedenen Projekten befinden, müssen Sie dem Dataplex-Dienstkonto die Leseberechtigung
bigquery.tables.getData
(oder die Rolle BigQuery Data Viewer) für die entsprechende BigQuery-Tabelle erteilen. Informationen zum Abrufen der Dienstidentität für ein Dienstkonto finden Sie unter Vorbereitung. - Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex-Dienstkonto die Cloud Storage-Rolle (
roles/storage.objectViewer
) zu.
Dataplex-Rollen
- Dataplex DataScan-Administrator auf Projektebene, um Scans zu erstellen.
- Dataplex DataScan Editor bei einem Scan: Zum Bearbeiten aller Attribute eines Scans (außer Berechtigungen) führen Sie den Scan aus und löschen den Scan.
- Dataplex DataScan DataViewer für einen Scan, um die Ergebnisse eines Scans aufzurufen.
Diese Rollen enthalten die Berechtigungen, die für die vorherigen Anwendungsfälle erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um verschiedene Aspekte der Datenqualitätsscans zu verwenden:
- So ändern Sie die Konfiguration eines Datenscans:
dataplex.datascans.update
– für die DataScan-Ressource - So ändern Sie die Richtlinie eines Datenscans:
dataplex.datascans.setIamPolicy
– für die Datascan-Ressource - So erstellen Sie einen Datenscan für eine BigQuery-Tabelle:
bigquery.tables.getData
– Die zu scannende Tabelle - So erstellen Sie Datenscans in einem Projekt:
dataplex.datascans.create
– für das Projekt - So löschen Sie einen Datenscan:
dataplex.datascans.delete
– für die DataScan-Ressource - So exportieren Sie die Datenscanergebnisse in ein BigQuery-Dataset:
bigquery.datasets.get
,bigquery.tables.create
,bigquery.tables.get
,bigquery.tables.update
,bigquery.tables.updateData
– das Ziel-Dataset - So veröffentlichen Sie die Ergebnisse eines Datenscans in einer Tabelle:
bigquery.tables.update
- die Zieltabelle - So führen Sie einen Datenscan aus:
dataplex.datascans.run
– für die DataScan-Ressource - So scannen Sie eine externe Tabelle aus Cloud Storage:
storage.buckets.get
,storage.objects.get
: der Bucket mit den zu scannenden Tabellen - So rufen Sie die Ergebnisse eines Datenscans auf:
dataplex.datascans.getData
– für die Datenscan-Ressource - So rufen Sie die Ergebnisse eines Datenscans auf:
dataplex.datascans.get
für die DataScan-Ressource - So zeigen Sie die Ergebnisse eines Datenscans an:
dataplex.datascans.list
– für die Datascan-Ressource
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Datenqualitätsscan erstellen
Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.
Klicken Sie im Bereich Explorer auf eine Tabelle für den Datenqualitätsscan.
Klicken Sie auf den Tab Datenqualität.
Klicken Sie auf Datenqualitätsscan > Neuen Scan erstellen.
Optional: Bearbeiten Sie die folgenden Werte:
- Anzeigename: Der änderbare Name der Ressource in der Console.
- ID: Eine eindeutige Kennung für den Scan. Nachdem der Scan erstellt wurde, kann er nicht mehr geändert werden.
- Beschreibung: Eine Beschreibung des Scans.
- Region: Definiert die Region, in der der Datenscan verarbeitet wird.
- Umfang: Der Datenbereich, der zum Scannen verfügbar ist. Wählen Sie entweder Inkrementell oder Gesamte Daten aus.
Wenn Sie Inkrementell auswählen, empfehlen wir, die Spalte
DATE
oderTIMESTAMP
aufzunehmen, die linear erhöht wird. Diese Spalte kann zur Identifizierung neuer Einträge verwendet werden. Für Tabellen, die nach Spalten des TypsDATE
oderTIMESTAMP
partitioniert sind, wird empfohlen, die Partitionsspalte als Zeitstempelfeld zu verwenden. - Filter: Filter, die auf die Daten angewendet werden sollen, bevor der Scan ausgeführt wird. Klicken Sie zum Filtern von Zeilen das Kästchen Zeilen filtern an und geben Sie einen gültigen SQL-Ausdruck in das Eingabetextfeld ein. Der Ausdruck muss in der BigQuery-Standard-SQL-Syntax enthalten sein und kann in einer
WHERE
-Klausel verwendet werden. - Probegröße: Der Prozentsatz der Daten, die Sie abrufen möchten. Bei inkrementellen Datenscans wird nur die letzte Stichprobe erfasst.
- Veröffentlichen Sie die Ergebnisse in der BigQuery- und Dataplex-Katalog-UI: Diese Option stellt die neuesten Ergebnisse des Scans der Datenprofilerstellung in der BigQuery-UI unter dem Tab Datenqualität für die Quelltabelle zur Verfügung. Wenn ein Scan ausgeführt wird und für die Veröffentlichung festgelegt ist, ist diese Option möglicherweise nicht verfügbar.
- Zeitplan: entweder On-Demand (Standard) oder Wiederholung. Wenn Sie Wiederholen auswählen, geben Sie die Häufigkeit des geplanten Scans mit Täglich, Wöchentlich, Monatlich oder Benutzerdefiniert an.
Bei der Verwendung von Custom wird das cron-Zeitformat verwendet, um den Zeitplan anzugeben. Ein Scan, der am zweiten Dienstag des Monats um 1:00 Uhr ausgeführt wird, sieht beispielsweise so aus:
0 1 8-14 * 2
.
Klicken Sie auf Weiter, um den Bereich mit den Einstellungen für die Datenqualitätsregeln aufzurufen.
Klicken Sie auf Regeln hinzufügen und fügen Sie gegebenenfalls eine oder mehrere der folgenden Regeln hinzu. Regeln können auch mit
Entfernen gelöscht werden.- Profilbasierte Empfehlungen
- Integrierte Regeltypen
- Prüfregel für SQL-Zeilen
- Prüfregel für SQL-Aggregate
Optional: Wenn Sie den Bereich öffnen möchten, um weitere optionale Einstellungen anzuzeigen, klicken Sie auf Weiter und bearbeiten Sie die folgenden Werte:
- Scanergebnisse in BigQuery-Tabelle exportieren: Wählen Sie ein BigQuery-Dataset und eine Tabelle aus, um die Ergebnisse des Qualitätsscans zu speichern. Wenn ein Dataset, aber keine Tabelle definiert ist, erstellt Dataplex eine Tabelle für Sie. Für Tabellen, die in dieser Weise erstellt werden, können Speicherkosten anfallen.
- Labels: Fügen Sie ein Label zum Scan hinzu.
Klicken Sie je nach Ihren Anforderungen auf eine der folgenden Schaltflächen:
- Klicken Sie auf Erstellen, um die Scaneinstellungen zu speichern.
- Klicken Sie auf Ausführen, um den Scan zu speichern und auszuführen.
Berechtigungen für Scans zur Datenqualität verwalten
So ändern Sie die Zugriffsberechtigungen vorhandener Scans für die Qualität:
Wechseln Sie zur BigQuery-Seite.
Wählen Sie im Bereich Explorer eine Tabelle für den Datenqualitätsscan aus.
Klicken Sie auf den Tab Datenqualität.
Klicken Sie auf Datenqualitätsscan > Scanberechtigungen verwalten. Dadurch wird Dataplex in einem neuen Tab geöffnet.
Klicken Sie auf den Tab Berechtigungen.
- Klicken Sie zum Gewähren des Zugriffs auf ein Hauptkonto auf Zugriff gewähren und weisen Sie dem zugehörigen Hauptkonto Dataplex DataScan DataViewer zu.
- Klicken Sie zum Entfernen des Zugriffs von einem Hauptkonto auf Zugriff entfernen und entfernen Sie Dataplex DataScan DataViewer aus dem zugehörigen Hauptkonto.
Vorhandenen Scan zur Datenqualität bearbeiten
Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.
Wählen Sie im Bereich Explorer eine Tabelle für den Datenqualitätsscan aus.
Klicken Sie auf Datenqualitätsscan > Scankonfiguration bearbeiten.
Dadurch werden die Einstellungen für den Datenqualitätsscan geöffnet, die für zukünftige Scans geändert und gespeichert werden können.
Ergebnisse des Datenqualitätsscans ansehen
Es gibt mehrere Möglichkeiten, die Ergebnisse des Scans für die Datenqualität anzuzeigen. Wählen Sie die Option aus, die für Ihre Bedürfnisse am besten geeignet ist.
Veröffentlichte Ergebnisse ansehen
Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.
Wählen Sie im Bereich Explorer eine Tabelle für den Datenqualitätsscan aus.
Klicken Sie auf den Tab Datenqualität.
Die zuletzt veröffentlichten Ergebnisse werden in dieser Ansicht angezeigt.
Historische Scanergebnisse ansehen
Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.
Wählen Sie im Bereich Explorer eine Tabelle für den Datenqualitätsscan aus.
Klicken Sie auf den Tab Datenqualität.
Klicken Sie auf Datenqualitätsscan > Historische Ergebnisse ansehen.
Alle Datenqualitätsscans für eine Tabelle ansehen
So öffnen Sie Dataplex mit einem Scanverlauf für eine bestimmte Tabelle:
Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.
Wählen Sie im Bereich Explorer eine Tabelle für den Datenqualitätsscan aus.
Klicken Sie auf Datenqualitätsscan > Alle Scans ansehen.