Auf dieser Seite wird beschrieben, wie Sie einen Dataplex-Datenqualitätsscan erstellen.
Weitere Informationen zu Datenqualitätsscans finden Sie unter Automatische Datenqualität.
Hinweise
Aktivieren Sie die Dataplex API.
Optional: Wenn Sie möchten, dass Dataplex Empfehlungen für Datenqualitätsregeln auf der Grundlage der Ergebnisse eines Datenprofilierungs-Scans generiert, erstellen und führen Sie den Datenprofilierungs-Scan aus.
Erforderliche Rollen
Wenn Sie einen Datenqualitätsscan für eine BigQuery-Tabelle ausführen möchten, benötigen Sie die Berechtigung zum Lesen der BigQuery-Tabelle und zum Erstellen eines BigQuery-Jobs im Projekt, das zum Scannen der Tabelle verwendet wird.
Wenn sich die BigQuery-Tabelle und der Datenqualitätsscan in verschiedenen Projekten befinden, müssen Sie dem Dataplex-Dienstkonto des Projekts, das den Datenqualitätsscan enthält, die Leseberechtigung für die entsprechende BigQuery-Tabelle erteilen.
Wenn sich die Datenqualitätsregeln auf zusätzliche Tabellen beziehen, muss das Dienstkonto des Scanprojekts Leseberechtigungen für dieselben Tabellen haben.
Bitten Sie Ihren Administrator, dem Dataplex-Dienstkonto die IAM-Rolle „BigQuery-Datenbearbeiter“ (
roles/bigquery.dataEditor
) für das Ergebnis-Dataset und die Ergebnistabelle zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Exportieren der Scanergebnisse in eine BigQuery-Tabelle benötigen. Dadurch werden die folgenden Berechtigungen gewährt:bigquery.datasets.get
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.update
bigquery.tables.updateData
Wenn die BigQuery-Daten in einem Dataplex-Lake organisiert sind, weisen Sie dem Dataplex-Dienstkonto die IAM-Rollen „Dataplex-Metadatenleser“ (
roles/dataplex.metadataReader
) und „Dataplex-Betrachter“ (roles/dataplex.viewer
) zu. Alternativ benötigen Sie alle folgenden Berechtigungen:dataplex.lakes.list
dataplex.lakes.get
dataplex.zones.list
dataplex.zones.get
dataplex.entities.list
dataplex.entities.get
dataplex.operations.get
Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, gewähren Sie dem Dataplex-Dienstkonto die Cloud Storage-Rolle
roles/storage.objectViewer
für den Bucket. Alternativ können Sie dem Dataplex-Dienstkonto die folgenden Berechtigungen zuweisen:storage.buckets.get
storage.objects.get
Wenn Sie die Ergebnisse des Datenqualitätsscans auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console für die Quelltabellen veröffentlichen möchten, müssen Sie die IAM-Rolle „BigQuery-Datenbearbeiter“ (
roles/bigquery.dataEditor
) für die Tabelle haben. Alternativ benötigen Sie alle folgenden Berechtigungen:bigquery.tables.get
bigquery.tables.update
bigquery.tables.updateData
bigquery.tables.delete
Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie dem Dataplex-Dienstkonto Berechtigungen für diese Spalten zu. Der Nutzer, der einen Datenscan erstellt oder aktualisiert, benötigt außerdem Berechtigungen für die Spalten.
Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex-Dienstkonto sichtbar sind. Die Zugriffsberechtigungen des einzelnen Nutzers werden für Richtlinien auf Zeilenebene nicht berücksichtigt.
Erforderliche Rollen für den Datenscan
Wenn Sie die automatische Datenqualität verwenden möchten, benötigen Sie entweder die Berechtigungen zum Ausführen von Datenscans oder eine Rolle mit vordefinierten Berechtigungen zum Ausführen von Datenscans.
In der folgenden Tabelle sind die DataScan
-Berechtigungen aufgeführt:
Name der Berechtigung | Ermöglicht Folgendes: |
---|---|
dataplex.datascans.create |
DataScan erstellen |
dataplex.datascans.delete |
DataScan löschen |
dataplex.datascans.get |
Betriebsmetadaten wie ID oder Zeitplan ansehen, aber keine Ergebnisse und Regeln |
dataplex.datascans.getData |
DataScan -Details wie Regeln und Ergebnisse ansehen |
dataplex.datascans.list |
DataScan s auflisten |
dataplex.datascans.run |
DataScan ausführen |
dataplex.datascans.update |
Beschreibung einer DataScan aktualisieren |
dataplex.datascans.getIamPolicy |
Aktuelle IAM-Berechtigungen für den Scan ansehen |
dataplex.datascans.setIamPolicy |
IAM-Berechtigungen für den Scan festlegen |
Weisen Sie Nutzern eine oder mehrere der folgenden Rollen zu:
- Vollzugriff auf
DataScan
-Ressourcen: Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin
) - Schreibzugriff auf
DataScan
-Ressourcen: Dataplex DataScan-Bearbeiter (roles/dataplex.dataScanEditor
) - Lesezugriff auf
DataScan
-Ressourcen, ausgenommen Regeln und Ergebnisse: Dataplex DataScan-Betrachter (roles/dataplex.dataScanViewer
) - Lesezugriff auf
DataScan
-Ressourcen, einschließlich Regeln und Ergebnisse: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer
)
Regeln für die Datenqualität definieren
Sie können Datenqualitätsregeln mithilfe von vordefinierten Regeln oder benutzerdefinierten SQL-Prüfungen definieren. Wenn Sie die Google Cloud CLI verwenden, können Sie diese Regeln in einer JSON- oder YAML-Datei definieren.
In den folgenden Abschnitten wird gezeigt, wie Sie verschiedene Regeln für die Datenqualität definieren. Die Regeln validieren eine Beispieltabelle mit Daten zu Kundentransaktionen. Angenommen, die Tabelle hat das folgende Schema:
Spaltenname | Spaltentyp | Spaltenbeschreibung |
---|---|---|
transaction_timestamp | Zeitstempel | Zeitstempel der Transaktion. Die Tabelle ist nach diesem Feld partitioniert. |
customer_id | String | Eine Kundennummer im Format 8 Buchstaben gefolgt von 16 Ziffern. |
transaction_id | String | Die Transaktions-ID muss in der Tabelle eindeutig sein. |
currency_id | String | Eine der unterstützten Währungen.Der Währungstyp muss mit einer der verfügbaren Währungen in der Dimensionstabelle dim_currency übereinstimmen.
|
Menge | float | Transaktionsbetrag. |
discount_pct | float | Rabattprozentsatz. Dieser Wert muss zwischen 0 und 100 liegen. |
Regeln für die Datenqualität mithilfe integrierter Regeltypen definieren
Die folgenden Beispielregeln basieren auf integrierten Regeltypen. Sie können Regeln basierend auf vordefinierten Regeltypen mit der Google Cloud Console oder der API erstellen. Einige dieser Regeln werden möglicherweise von Dataplex empfohlen.
Spaltenname | Regeltyp | Vorgeschlagene Dimension | Regelparameter |
---|---|---|---|
transaction_id |
Eindeutigkeitsprüfung | Eindeutigkeit | Threshold: Not Applicable (Grenzwert: 500) |
amount |
Null-Prüfung | Vollständigkeit | Threshold: 100% (Grenzwert: 500) |
customer_id |
Regex-Prüfung (regulärer Ausdruck) | Gültigkeit | Regulärer Ausdruck: ^[0-9]{8}[a-zA-Z]{16}$ Grenzwert: 100%
|
currency_id |
Prüfung des Wertesatzes | Gültigkeit | Menge von: USD,JPY,INR,GBP,CAN Grenzwert: 100%
|
Datenqualitätsregeln mit benutzerdefinierten SQL-Regeln definieren
Verwenden Sie das folgende Framework, um benutzerdefinierte SQL-Regeln zu erstellen:
Wenn Sie eine Regel erstellen, die jeweils eine Zeile auswertet, erstellen Sie einen Ausdruck, der die Anzahl der erfolgreichen Zeilen generiert, wenn Dataplex die Abfrage
SELECT COUNTIF(CUSTOM_SQL_EXPRESSION) FROM TABLE
auswertet. Dataplex vergleicht die Anzahl der erfolgreichen Zeilen mit dem Grenzwert.Wenn Sie eine Regel erstellen, die Zeilenübergreifend ausgewertet wird oder eine Tabellenbedingung verwendet, erstellen Sie einen Ausdruck, der „Erfolg“ oder „Fehler“ zurückgibt, wenn Dataplex die Abfrage
SELECT IF(CUSTOM_SQL_EXPRESSION) FROM TABLE
auswertet.Wenn Sie eine Regel erstellen, die den ungültigen Status eines Datensatzes bewertet, geben Sie eine Anweisung an, die ungültige Zeilen zurückgibt. Wenn Zeilen zurückgegeben werden, schlägt die Regel fehl. Lassen Sie das abschließende Semikolon aus der SQL-Anweisung weg.
Sie können auf eine Datenquellentabelle und alle ihre Filter für Vorbedingungen verweisen, indem Sie in einer Regel den Datenreferenzparameter
${data()}
verwenden, anstatt die Quelltabelle und ihre Filter explizit zu erwähnen. Beispiele für Filter für Voraussetzungen sind Zeilenfilter, Stichprobenprozente und inkrementelle Filter. Beim Parameter${data()}
wird zwischen Groß- und Kleinschreibung unterschieden.
Die folgenden Beispielregeln basieren auf benutzerdefinierten SQL-Regeln.
Regeltyp | Regelbeschreibung | SQL-Ausdruck |
---|---|---|
Zeilenbedingung | Prüft, ob der Wert von discount_pct zwischen 0 und 100 liegt.
|
0 <discount_pct UND discount_pct < 100
|
Zeilenbedingung | Referenzprüfung, um zu bestätigen, dass currency_id eine der unterstützten Währungen ist.
|
currency_id in (select id from my_project_id.dim_dataset.dim_currency)
|
Tabellenbedingung | Aggregat-SQL-Ausdruck, der prüft, ob der durchschnittliche Wert für discount_pct zwischen 30% und 50 % liegt.
|
30<avg(discount) AND avg(discount) <50
|
Zeilenbedingung | Prüft, ob ein Datum nicht in der Zukunft liegt. | TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
|
Tabellenbedingung |
Eine benutzerdefinierte BigQuery-Funktion (UDF), mit der geprüft wird, ob der durchschnittliche Transaktionsbetrag unter einem vordefinierten Wert pro Land liegt. Erstellen Sie die (JavaScript-)UDF mit dem folgenden Befehl:
CREATE OR REPLACE FUNCTION myProject.myDataset.average_by_country ( country STRING, average FLOAT64) RETURNS BOOL LANGUAGE js AS R""" if (country = "CAN" && average < 5000){ return 1 } else if (country = "IND" && average < 1000){ return 1 } else { return 0 } """; |
Beispielregel zum Prüfen des durchschnittlichen Transaktionsbetrags für country=CAN .
myProject.myDataset.average_by_country( "CAN", (SELECT avg(amount) FROM myProject.myDataset.transactions_table WHERE currency_id = 'CAN' )) |
Tabellenbedingung | Eine BigQuery ML-Vorhersageklausel, um Anomalien in discount_pct zu erkennen. Es wird geprüft, ob basierend auf customer , currency und transaction ein Rabatt angewendet werden soll. Die Regel prüft, ob die Vorhersage mindestens 99% der Fälle mit dem tatsächlichen Wert übereinstimmt. Annahme: Das ML-Modell wird vor der Verwendung der Regel erstellt. Erstellen Sie das ML-Modell mit dem folgenden Befehl:
CREATE MODEL model-project-id.dataset-id.model-name OPTIONS(model_type='logistic_reg') AS SELECT IF(discount_pct IS NULL, 0, 1) AS label, IFNULL(customer_id, "") AS customer, IFNULL(currency_id, "") AS currency, IFNULL(amount, 0.0) AS amount FROM `data-project-id.dataset-id.table-names` WHERE transaction_timestamp < '2022-01-01'; |
Mit der folgenden Regel wird geprüft, ob die Vorhersagegenauigkeit über 99 % liegt.
SELECT accuracy > 0.99 FROM ML.EVALUATE (MODEL model-project-id.dataset-id.model-name, ( SELECT customer_id, currency_id, amount, discount_pct FROM data-project-id.dataset-id.table-names WHERE transaction_timestamp > '2022-01-01'; ) ) |
Zeilenbedingung | Eine BigQuery ML-Vorhersagefunktion, um Anomalien in discount_pct zu erkennen. Die Funktion prüft, ob basierend auf customer , currency und transaction ein Rabatt angewendet werden soll.
Die Regel identifiziert alle Vorkommen, bei denen die Vorhersage nicht übereinstimmte.
Annahme: Das ML-Modell wird vor der Verwendung der Regel erstellt. Erstellen Sie das ML-Modell mit dem folgenden Befehl:
CREATE MODEL model-project-id.dataset-id.model-name OPTIONS(model_type='logistic_reg') AS SELECT IF(discount_pct IS NULL, 0, 1) AS label, IFNULL(customer_id, "") AS customer, IFNULL(currency_id, "") AS currency, IFNULL(amount, 0.0) AS amount FROM `data-project-id.dataset-id.table-names` WHERE transaction_timestamp < '2022-01-01'; |
Mit der folgenden Regel wird für jede Zeile geprüft, ob die Rabattvorhersage mit dem tatsächlichen Wert übereinstimmt.
IF(discount_pct > 0, 1, 0) =(SELECT predicted_label FROM ML.PREDICT( MODEL model-project-id.dataset-id.model-name, ( SELECT customer_id, currency_id, amount, discount_pct FROM data-project-id.dataset-id.table-names AS t WHERE t.transaction_timestamp = transaction_timestamp LIMIT 1 ) ) ) |
SQL-Assertion | Prüft, ob der Wert discount_pct für heute über 30 % liegt. Dazu wird geprüft, ob es Zeilen mit einem Rabattprozentsatz gibt, der kleiner oder gleich 30 % ist. |
SELECT * FROM my_project_id.dim_dataset.dim_currency WHERE discount_pct <= 30 AND transaction_timestamp >= current_date() |
SQL-Bestätigung (mit Datenreferenzparameter) | Prüft, ob der Der Datumsfilter Der Datenreferenzparameter |
SELECT * FROM ${data()} WHERE discount_pct > 30 |
Datenqualitätsregeln mit der gcloud CLI definieren
In der folgenden Beispiel-YAML-Datei werden einige derselben Regeln verwendet wie in den Beispielregeln mit vordefinierten Typen und den Beispielregeln für benutzerdefinierte SQL-Regeln. Sie können diese YAML-Datei als Eingabe für den gcloud CLI-Befehl verwenden.
rules:
- uniquenessExpectation: {}
column: transaction_id
dimension: UNIQUENESS
- nonNullExpectation: {}
column: amount
dimension: COMPLETENESS
threshold: 1
- regexExpectation:
regex: '^[0-9]{8}[a-zA-Z]{16}$'
column : customer_id
ignoreNull : true
dimension : VALIDITY
threshold : 1
- setExpectation :
values :
- 'USD'
- 'JPY'
- 'INR'
- 'GBP'
- 'CAN'
column : currency_id
ignoreNull : true
dimension : VALIDITY
threshold : 1
- rangeExpectation:
minValue : '0'
maxValue : '100'
column : discount_pct
ignoreNull : true
dimension : VALIDITY
threshold : 1
- rowConditionExpectation:
sqlExpression : 0 < `discount_pct` AND `discount_pct` < 100
column: discount_pct
dimension: VALIDITY
threshold: 1
- rowConditionExpectation:
sqlExpression : currency_id in (select id from `my_project_id.dim_dataset.dim_currency`)
column: currency_id
dimension: VALIDITY
threshold: 1
- tableConditionExpectation:
sqlExpression : 30 < avg(discount_pct) AND avg(discount_pct) < 50
dimension: VALIDITY
- rowConditionExpectation:
sqlExpression : TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
column: transaction_timestamp
dimension: VALIDITY
threshold: 1
- sqlAssertion:
sqlStatement : SELECT * FROM `my_project_id.dim_dataset.dim_currency` WHERE discount_pct > 100
dimension: VALIDITY
Datenqualitätsscan erstellen
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf Datenqualitätsscan erstellen.
Füllen Sie im Fenster Scan definieren die folgenden Felder aus:
Geben Sie einen Anzeigenamen ein.
Die Scan-ID wird automatisch generiert, wenn Sie keine eigene ID angeben. Weitere Informationen finden Sie in der Namenskonvention für Ressourcen.
Optional: Geben Sie eine Beschreibung ein.
Klicken Sie im Feld Tabelle auf Durchsuchen, wählen Sie die gewünschte Tabelle aus und klicken Sie auf Auswählen. Dataplex unterstützt nur standardmäßige BigQuery-Tabellen.
Wählen Sie für Tabellen in multiregionalen Datasets eine Region aus, in der der Datenscan erstellt werden soll.
Wenn Sie die im Data Lake organisierten Tabellen durchsuchen möchten, klicken Sie auf In Dataplex-Lakes suchen.
Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
- Wenn Sie Inkrementell auswählen: Wählen Sie im Feld Spalte mit dem Zeitstempel eine Spalte vom Typ
DATE
oderTIMESTAMP
aus Ihrer BigQuery-Tabelle aus, die monoton zunimmt und zum Identifizieren neuer Datensätze verwendet werden kann. Das kann eine Spalte sein, die die Tabelle partitioniert.
- Wenn Sie Inkrementell auswählen: Wählen Sie im Feld Spalte mit dem Zeitstempel eine Spalte vom Typ
Optional: Fügen Sie Labels hinzu. Labels sind
key:value
-Paare, mit denen Sie verwandte Objekte zusammen oder mit anderen Google Cloud Ressourcen gruppieren können.Klicken Sie auf Filter, um Ihre Daten zu filtern. Aktivieren Sie das Kästchen Zeilen filtern. Der Eingabewert für den Zeilenfilter muss ein gültiger SQL-Ausdruck sein, der als Teil einer
WHERE
-Klausel in GoogleSQL-Syntax verwendet werden kann. Zum Beispiel:col1 >= 0
. Der Filter kann eine Kombination aus mehreren Spaltenbedingungen sein. Beispiel:col1 >= 0 AND col2 < 10
.Wenn Sie eine Stichprobe Ihrer Daten erstellen möchten, wählen Sie in der Liste Probenumfang einen Prozentsatz für die Stichprobe aus. Wählen Sie einen Prozentsatz zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus. Wählen Sie für größere Datensätze einen niedrigeren Prozentsatz für die Stichprobenerhebung aus. Wenn Sie beispielsweise für eine Tabelle mit etwa 1 PB einen Wert zwischen 0, 1% und 1, 0 % eingeben, werden in Dataplex zwischen 1 und 10 TB Daten gesampled. Bei inkrementellen Datenscans wendet Dataplex die Stichprobenerhebung auf das letzte Increment an.
Wenn Sie die Ergebnisse des Datenqualitätsscans für die Quelltabelle auf den Seiten „BigQuery“ und „Data Catalog“ in der Google Cloud Console veröffentlichen möchten, klicken Sie das Kästchen Ergebnisse in BigQuery und der Dataplex-Katalog-UI veröffentlichen an. Sie können die neuesten Scanergebnisse auf den BigQuery- und Data Catalog-Seiten der Quelltabelle auf dem Tab Datenqualität aufrufen. Wie Sie Nutzern den Zugriff auf die veröffentlichten Scanergebnisse ermöglichen, erfahren Sie unter Veröffentlichte Ergebnisse teilen. In den folgenden Fällen ist die Veröffentlichungsoption möglicherweise nicht verfügbar:
- Sie haben nicht die erforderlichen Berechtigungen für die Tabelle.
- Für einen anderen Datenqualitätsscan ist das Veröffentlichen von Ergebnissen festgelegt.
Weitere Informationen zu den Berechtigungen, die zum Ansehen der veröffentlichten Ergebnisse erforderlich sind, finden Sie unter Berechtigungen.
Klicken Sie auf Weiter.
Wählen Sie im Fenster Zeitplan eine der folgenden Optionen aus:
Wiederholen: Sie können den Job zum Scannen der Datenqualität nach einem Zeitplan ausführen: täglich, wöchentlich, monatlich oder benutzerdefiniert. Legen Sie fest, wie oft und wann der Scan ausgeführt werden soll. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie das Cron-Format, um den Zeitplan anzugeben.
On-Demand: Sie können den Job zum Scannen der Datenqualität nach Bedarf ausführen.
Klicken Sie auf Weiter.
Definieren Sie im Fenster Regeln für Datenqualität die Regeln, die für diesen Datenqualitätsscan konfiguriert werden sollen. Klicken Sie auf Regeln hinzufügen und wählen Sie eine der folgenden Optionen aus.
Profilbasierte Empfehlungen: Sie können Regeln anhand der Empfehlungen erstellen, die auf einem vorhandenen Datenprofil-Scan basieren.
Spalten auswählen: Wählen Sie die Spalten aus, für die Sie empfohlene Regeln erhalten möchten.
Projekt scannen: Empfehlungen basierend auf einem vorhandenen Datenprofiling-Scan. Standardmäßig werden in Dataplex Profilierungsscans aus demselben Projekt ausgewählt, in dem Sie den Datenqualitätsscan erstellen. Wenn Sie den Scan in einem anderen Projekt erstellt haben, müssen Sie das Projekt angeben, aus dem Profilscans abgerufen werden sollen.
Suchergebnisse für Profile auswählen: Je nach ausgewählten Spalten und Projekt werden mehrere Suchergebnisse für Profile angezeigt.
Wählen Sie ein oder mehrere Profilergebnisse aus und klicken Sie auf OK. Daraufhin wird eine Liste mit Regeln angezeigt, aus denen Sie auswählen können.
Wählen Sie die Regeln aus, die Sie bearbeiten möchten, indem Sie die Kästchen anklicken und dann auf Auswählen klicken. Die ausgewählten Regeln werden Ihrer aktuellen Regelliste hinzugefügt. Anschließend können Sie die Regeln bearbeiten.
Integrierte Regeltypen: Sie können Regeln aus vordefinierten Regeln erstellen. Liste der vordefinierten Regeln
Spalten auswählen: Wählen Sie die Spalten aus, für die Sie Regeln festlegen möchten.
Regeltypen auswählen: Je nach ausgewählten Spalten werden mehrere Regeltypen angezeigt.
Wählen Sie einen oder mehrere Regeltypen aus und klicken Sie auf OK. Daraufhin wird eine Liste mit Regeln angezeigt, aus denen Sie auswählen können.
Wählen Sie die Regeln aus, die Sie bearbeiten möchten, indem Sie die Kästchen anklicken und dann auf Auswählen klicken. Die ausgewählten Regeln werden Ihrer aktuellen Regelliste hinzugefügt. Anschließend können Sie die Regeln bearbeiten.
Prüfregel für SQL-Zeilen: Erstellen Sie eine benutzerdefinierte SQL-Regel, die auf jede Zeile angewendet werden soll.
Wählen Sie unter Dimension eine Dimension aus.
Wählen Sie unter Grenzwert für Bestehen einen Prozentsatz der Datensätze aus, die die Prüfung bestehen müssen.
Wählen Sie unter Spaltenname eine Spalte aus.
Geben Sie im Feld SQL-Ausdruck angeben einen SQL-Ausdruck ein, der zu einem booleschen Wert von
true
(bestanden) oderfalse
(nicht bestanden) führt. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen im Abschnitt Datenqualitätsregeln definieren dieses Dokuments.Klicken Sie auf Hinzufügen.
Prüfregel für SQL-Aggregate: Hiermit können Sie eine benutzerdefinierte SQL-Tabellenbedingungenregel erstellen.
Wählen Sie unter Dimension eine Dimension aus.
Wählen Sie unter Spaltenname eine Spalte aus.
Geben Sie im Feld SQL-Ausdruck angeben einen SQL-Ausdruck ein, der zu einem booleschen Wert von
true
(bestanden) oderfalse
(nicht bestanden) führt. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen im Abschnitt Datenqualitätsregeln definieren dieses Dokuments.Klicken Sie auf Hinzufügen.
SQL-Assertion-Regel: Erstellen Sie eine benutzerdefinierte SQL-Assertion-Regel, um einen ungültigen Status der Daten zu prüfen.
Wählen Sie unter Dimension eine Dimension aus.
Optional: Wählen Sie unter Spaltenname eine Spalte aus.
Geben Sie im Feld SQL-Anweisung angeben eine SQL-Anweisung ein, die Zeilen zurückgibt, die dem ungültigen Status entsprechen. Wenn Zeilen zurückgegeben werden, schlägt die Regel fehl. Lassen Sie das abschließende Semikolon aus der SQL-Anweisung weg. Weitere Informationen finden Sie unter Unterstützte benutzerdefinierte SQL-Regeltypen und in den Beispielen im Abschnitt Datenqualitätsregeln definieren dieses Dokuments.
Klicken Sie auf Hinzufügen.
In Dataplex können Sie benutzerdefinierte Namen für Datenqualitätsregeln für die Überwachung und Benachrichtigung festlegen. Sie können jeder Datenqualitätsregel optional einen benutzerdefinierten Namen und eine Beschreibung zuweisen. Bearbeiten Sie dazu eine Regel und geben Sie die folgenden Details an:
- Regelname: Geben Sie einen benutzerdefinierten Regelnamen mit bis zu 63 Zeichen ein. Der Regelname kann Buchstaben (a–z, A–Z), Ziffern (0–9) und Bindestriche (-) enthalten. Er muss mit einem Buchstaben beginnen und mit einer Zahl oder einem Buchstaben enden.
- Beschreibung: Geben Sie eine Regelbeschreibung mit maximal 1.024 Zeichen ein.
Klicken Sie auf Weiter.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Klicken Sie im Bereich Scanergebnisse in BigQuery-Tabelle exportieren auf Durchsuchen, um ein vorhandenes BigQuery-Dataset auszuwählen, in dem die Ergebnisse des Datenqualitätsscans gespeichert werden sollen.
Wenn die angegebene Tabelle nicht vorhanden ist, wird sie von Dataplex für Sie erstellt. Wenn Sie eine vorhandene Tabelle verwenden, achten Sie darauf, dass sie mit dem Schema der Exporttabelle kompatibel ist.
Optional: Richten Sie E-Mail-Benachrichtigungsberichte ein, um Personen über den Status und die Ergebnisse eines Jobs für den Datenqualitätsscan zu informieren. Klicken Sie im Bereich Benachrichtigungsbericht auf
E-Mail-ID hinzufügen und geben Sie bis zu fünf E-Mail-Adressen ein. Wählen Sie dann die Szenarien aus, für die Sie Berichte senden möchten:- Qualitätsfaktor (<=): Es wird ein Bericht gesendet, wenn ein Job erfolgreich war, aber der Datenqualitätsfaktor unter dem angegebenen Zielwert liegt. Geben Sie einen Zielwert für die Qualität zwischen 0 und 100 ein.
- Jobfehler: Es wird ein Bericht gesendet, wenn der Job selbst fehlschlägt, unabhängig von den Ergebnissen der Datenqualität.
- Jobabschluss (Erfolg oder Fehler): Es wird ein Bericht gesendet, wenn der Job endet, unabhängig von den Ergebnissen der Datenqualität.
Klicken Sie auf Erstellen.
Nachdem der Scan erstellt wurde, können Sie ihn jederzeit ausführen, indem Sie auf Jetzt ausführen klicken.
Verwenden Sie den Befehl gcloud dataplex datascans create data-quality
, um einen Datenqualitätsscan zu erstellen.
Wenn die Quelldaten in einem Data Lake organisiert sind, fügen Sie das Flag --data-source-entity
hinzu:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-entity=DATA_SOURCE_ENTITY
Wenn die Quelldaten nicht in einem Dataplex-Data Lake organisiert sind, fügen Sie das Flag --data-source-resource
hinzu:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-resource=DATA_SOURCE_RESOURCE
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des Datenqualitätsscans.LOCATION
: Die Region Google Cloud , in der der Datenqualitätsscan erstellt werden soll.DATA_QUALITY_SPEC_FILE
: Pfad zur JSON- oder YAML-Datei mit den Spezifikationen für den Datenqualitätsscan. Die Datei kann eine lokale Datei oder ein Cloud Storage-Pfad mit dem Präfixgs://
sein. In dieser Datei können Sie die Datenqualitätsregeln für den Scan angeben. Sie können in dieser Datei auch zusätzliche Details angeben, z. B. Filter, Stichprobenprozentsatz und Aktionen nach dem Scan, z. B. Exportieren nach BigQuery oder Senden von E-Mail-Benachrichtigungsberichten. Weitere Informationen finden Sie in der Dokumentation zur JSON-Darstellung.DATA_SOURCE_ENTITY
: Das Dataplex-Element, das die Daten für den Datenqualitätscheck enthält. Beispiel:projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE
: Der Name der Ressource, die die Daten für den Datenqualitätscheck enthält. Beispiel://bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
Verwenden Sie den APIs Explorer, um einen Datenqualitätsscan zu erstellen.
Wenn Sie Regeln für den Datenqualitätsscan mithilfe von Regelempfehlungen erstellen möchten, die auf den Ergebnissen eines Datenprofilierungsscans basieren, rufen Sie die dataScans.jobs.generateDataQualityRules
-Methode für den Datenprofilierungsscan auf.
Tabellenschema exportieren
Wenn Sie die Ergebnisse des Datenqualitätsscans in eine vorhandene BigQuery-Tabelle exportieren möchten, muss diese mit dem folgenden Tabellenschema kompatibel sein:
Spaltenname | Datentyp der Spalte | Name des untergeordneten Felds (falls zutreffend) |
Datentyp des untergeordneten Felds | Modus | Beispiel |
---|---|---|---|---|---|
data_quality_scan | struct/record |
resource_name |
string |
nullable | //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan |
project_id |
string |
nullable | dataplex-back-end-dev-project |
||
location |
string |
nullable | us-central1 |
||
data_scan_id |
string |
nullable | test-datascan |
||
data_source | struct/record |
resource_name |
string |
nullable | Fall der Entität://dataplex.googleapis.com/projects/dataplex-back-end-dev-project/locations/europe-west2/lakes/a0-datascan-test-lake/zones/a0-datascan-test-zone/entities/table1 Fall der Tabelle: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
|
dataplex_entity_project_id |
string |
nullable | dataplex-back-end-dev-project |
||
dataplex_entity_project_number |
integer |
nullable | 123456789 |
||
dataplex_lake_id |
string |
nullable | (Nur gültig, wenn „source“ „entity“ ist)test-lake
|
||
dataplex_zone_id |
string |
nullable | (Nur gültig, wenn „source“ „entity“ ist)test-zone |
||
dataplex_entity_id |
string |
nullable | (Nur gültig, wenn „source“ „entity“ ist)test-entity |
||
table_project_id |
string |
nullable | test-project |
||
table_project_number |
integer |
nullable | 987654321 |
||
dataset_id |
string |
nullable | (Nur gültig, wenn „source“ eine Tabelle ist)test-dataset |
||
table_id |
string |
nullable | (Nur gültig, wenn „source“ eine Tabelle ist)test-table |
||
data_quality_job_id | string |
nullable | caeba234-cfde-4fca-9e5b-fe02a9812e38 |
||
data_quality_job_configuration | json |
trigger |
string |
nullable | ondemand /schedule |
incremental |
boolean |
nullable | true /false |
||
sampling_percent |
float |
nullable | (0–100)20.0 (bedeutet 20%) |
||
row_filter |
string |
nullable | col1 >= 0 AND col2 < 10 |
||
job_labels | json |
nullable | {"key1":value1} |
||
job_start_time | timestamp |
nullable | 2023-01-01 00:00:00 UTC |
||
job_end_time | timestamp |
nullable | 2023-01-01 00:00:00 UTC |
||
job_rows_scanned | integer |
nullable | 7500 |
||
rule_name | string |
nullable | test-rule |
||
rule_type | string |
nullable | Range Check |
||
rule_evaluation_type | string |
nullable | Per row |
||
rule_column | string |
nullable | Rule only attached to a certain column |
||
rule_dimension | string |
nullable | UNIQUENESS |
||
job_quality_result | struct/record |
passed |
boolean |
nullable | true /false |
score |
float |
nullable | 90.8 |
||
job_dimension_result | json |
nullable | {"ACCURACY":{"passed":true,"score":100},"CONSISTENCY":{"passed":false,"score":60}}
|
||
rule_threshold_percent | float |
nullable | (0,0–100,0)Rule-threshold-pct in API * 100 |
||
rule_parameters | json |
nullable | {min: 24, max:5345} |
||
rule_pass | boolean |
nullable | True |
||
rule_rows_evaluated | integer |
nullable | 7400 |
||
rule_rows_passed | integer |
nullable | 3 |
||
rule_rows_null | integer |
nullable | 4 |
||
rule_failed_records_query | string |
nullable | "SELECT * FROM `test-project.test-dataset.test-table` WHERE (NOT((`cTime` >= '15:31:38.776361' and `cTime` <= '19:23:53.754823') IS TRUE));" |
||
rule_assertion_row_count | integer |
nullable | 10 |
Beachten Sie beim Konfigurieren von BigQueryExport für einen Job zur Datenqualitätsprüfung die folgenden Richtlinien:
- Verwenden Sie für das Feld
resultsTable
das Format://bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}
. - Verwenden Sie eine BigQuery-Standardtabelle.
- Wenn die Tabelle beim Erstellen oder Aktualisieren des Scans nicht vorhanden ist, wird sie von Dataplex für Sie erstellt.
- Standardmäßig wird die Tabelle täglich nach der Spalte
job_start_time
partitioniert. - Wenn die Tabelle in anderen Konfigurationen partitioniert werden soll oder Sie die Partitionierung nicht möchten, erstellen Sie die Tabelle mit dem erforderlichen Schema und den erforderlichen Konfigurationen neu und geben Sie die vorab erstellte Tabelle als Ergebnistabelle an.
- Die Ergebnistabelle muss sich am selben Speicherort wie die Quelltabelle befinden.
- Wenn VPC-SC für das Projekt konfiguriert ist, muss sich die Ergebnistabelle im selben VPC-SC-Perimeter wie die Quelltabelle befinden.
- Wenn die Tabelle während der Ausführung des Scans geändert wird, wird der aktuelle Job in die vorherige Ergebnistabelle exportiert und die Tabellenänderung wird erst mit dem nächsten Scanjob wirksam.
- Ändern Sie das Tabellenschema nicht. Wenn Sie benutzerdefinierte Spalten benötigen, erstellen Sie eine Ansicht auf der Tabelle.
- Legen Sie ein Ablaufdatum für die Partition fest, um die Kosten zu senken. Weitere Informationen finden Sie unter Partitionsablauf festlegen.
Datenqualitätsscan ausführen
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Datenqualitätsscan, den Sie ausführen möchten.
Klicken Sie auf Jetzt ausführen.
Verwenden Sie den Befehl gcloud dataplex datascans run
, um einen Datenqualitätscheck auszuführen:
gcloud dataplex datascans runDATASCAN \ --location=LOCATION \
Ersetzen Sie die folgenden Variablen:
LOCATION
: Die Region Google Cloud , in der der Datenqualitätsscan erstellt wurde.DATASCAN
: Der Name des Datenqualitätsscans.
Verwenden Sie den APIs Explorer, um einen Datenqualitätsscan auszuführen.
Ergebnisse des Datenqualitätsscans ansehen
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Namen des Scans, um die detaillierten Ergebnisse aufzurufen.
Im Bereich Übersicht finden Sie Informationen zu den letzten sieben Jobs, darunter Datum und Uhrzeit des Scans, die Anzahl der in jedem Job gescannten Datensätze, ob alle Datenqualitätsprüfungen bestanden haben, ob Fehler aufgetreten sind, die Anzahl der fehlgeschlagenen Datenqualitätsprüfungen und die Dimensionen, bei denen Fehler aufgetreten sind.
Im Abschnitt Konfiguration für Datenqualitätsscan werden Details zum Scan angezeigt.
Klicken Sie auf den Tab Jobverlauf, um Datenqualitätsbewertungen zu sehen, die den Prozentsatz der bestandenen Regeln angeben. Klicken Sie dann auf eine Job-ID.
Verwenden Sie den Befehl gcloud dataplex datascans jobs describe
, um die Ergebnisse eines Jobs zum Scannen der Datenqualität aufzurufen:
gcloud dataplex datascans jobs describeJOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
Ersetzen Sie die folgenden Variablen:
JOB
: Die Job-ID des Jobs zur Datenqualitätsprüfung.LOCATION
: Die Region Google Cloud , in der der Datenqualitätsscan erstellt wurde.DATASCAN
: Der Name des Datenqualitätsscans, zu dem der Job gehört.--view=FULL
: Geben SieFULL
an, um das Ergebnis des Scanjobs zu sehen.
Im APIs Explorer können Sie sich die Ergebnisse eines Datenqualitätsscans ansehen.
Historische Scanergebnisse ansehen
In Dataplex wird der Verlauf der Datenqualitätsscans der letzten 300 Jobs oder des letzten Jahres gespeichert, je nachdem, was zuerst eintritt.
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Namen eines Scans.
Klicken Sie auf den Tab Jobverlauf.
Auf dem Tab Jobverlauf finden Sie Informationen zu früheren Jobs. Sie enthält unter anderem eine Liste aller Jobs, die Anzahl der in jedem Job gescannten Datensätze, den Jobstatus, die Uhrzeit, zu der der Job ausgeführt wurde, und ob jede Regel bestanden oder fehlgeschlagen ist.
Klicken Sie auf einen Job in der Spalte Job-ID, um detaillierte Informationen zu einem Job aufzurufen.
Verwenden Sie den Befehl gcloud dataplex datascans jobs list
, um alle Jobs eines Datenqualitätsscans aufzurufen:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN \
Ersetzen Sie die folgenden Variablen:
LOCATION
: Die Region Google Cloud , in der der Datenqualitätsscan erstellt wurde.DATASCAN
: Der Name des Datenqualitätsscans, für den alle Jobs angezeigt werden sollen.
Im APIs Explorer können Sie alle Scanjobs ansehen.
Veröffentlichte Ergebnisse teilen
Wenn Sie beim Erstellen eines Scans zur Datenqualität festgelegt haben, dass die Scanergebnisse auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console veröffentlicht werden sollen, sind die neuesten Scanergebnisse auf diesen Seiten auf dem Tab Datenqualität verfügbar.
Sie können den Nutzern in Ihrer Organisation den Zugriff auf die veröffentlichten Scanergebnisse erlauben. So gewähren Sie Zugriff auf die Scanergebnisse:
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Datenqualitätsscan, dessen Ergebnisse Sie freigeben möchten.
Wechseln Sie zum Tab Berechtigungen.
Klicken Sie auf Zugriff erlauben.
Fügen Sie im Feld Neue Hauptkonten das Hauptkonto hinzu, dem Sie Zugriff gewähren möchten.
Wählen Sie im Feld Rolle auswählen die Option Dataplex DataScan DataViewer aus.
Klicken Sie auf Speichern.
So entfernen Sie den Zugriff auf die veröffentlichten Scanergebnisse für ein Hauptkonto:
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Datenqualitätsscan, dessen Ergebnisse Sie freigeben möchten.
Wechseln Sie zum Tab Berechtigungen.
Wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex DataScan DataViewer entfernen möchten.
Klicken Sie auf Zugriff entfernen.
Klicken Sie auf Bestätigen.
Benachrichtigungen in Cloud Logging einrichten
So legen Sie mithilfe der Logs in Cloud Logging Benachrichtigungen für Fehler bei der Datenqualität fest:
Rufen Sie in der Google Cloud Console den Log-Explorer von Cloud Logging auf.
Geben Sie im Fenster Abfrage Ihre Abfrage ein. Beispielabfragen
Klicken Sie auf Abfrage ausführen.
Klicken Sie auf Benachrichtigung erstellen. Daraufhin wird eine Seitenleiste geöffnet.
Geben Sie den Namen der Benachrichtigungsrichtlinie ein und klicken Sie auf Weiter.
Überprüfen Sie die Abfrage.
Klicken Sie auf die Schaltfläche Protokolle in der Vorschau anzeigen, um die Abfrage zu testen. Es werden Protokolle mit übereinstimmenden Bedingungen angezeigt.
Klicken Sie auf Weiter.
Legen Sie die Zeit zwischen Benachrichtigungen fest und klicken Sie auf Weiter.
Legen Sie fest, wer über die Benachrichtigung informiert werden soll, und klicken Sie auf Speichern, um die Benachrichtigungsrichtlinie zu erstellen.
Alternativ können Sie Ihre Benachrichtigungen in der Google Cloud Console unter Monitoring > Benachrichtigungen konfigurieren und bearbeiten.
Nicht unterstützt.
Mit dem APIs Explorer können Sie Benachrichtigungen in Cloud Logging einrichten.
Beispielabfragen zum Festlegen von Benachrichtigungen auf Job- oder Dimensionsebene
Beispielabfrage zum Festlegen von Benachrichtigungen bei allgemeinen Fehlern bei der Datenqualität für einen Datenqualitätsscan:
resource.type="dataplex.googleapis.com/DataScan" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND resource.labels.datascan_id="a0-test-dec6-dq-3" AND NOT jsonPayload.dataQuality.passed=true
Beispielabfrage zum Festlegen von Benachrichtigungen bei Datenqualitätsfehlern für eine Dimension (z. B. Eindeutigkeit) eines bestimmten Datenqualitätsscans:
resource.type="dataplex.googleapis.com/DataScan" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND resource.labels.datascan_id="a0-test-dec6-dq-3" AND jsonPayload.dataQuality.dimensionPassed.UNIQUENESS=false
Beispielabfrage zum Festlegen von Benachrichtigungen bei Datenqualitätsfehlern für eine Tabelle
So legen Sie Benachrichtigungen zu Datenqualitätsfehlern für eine BigQuery-Tabelle fest, die sich nicht in einem Dataplex-Lake befindet:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.dataSource="//bigquery.googleapis.com/projects/test-project/datasets/testdataset/table/chicago_taxi_trips" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND NOT jsonPayload.dataQuality.passed=true
So legen Sie Benachrichtigungen zu Datenqualitätsfehlern für eine BigQuery-Tabelle fest, die in einem Dataplex-Lake organisiert ist:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.dataSource="projects/test-project/datasets/testdataset/table/chicago_taxi_trips" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND NOT jsonPayload.dataQuality.passed=true
Beispielabfragen für Benachrichtigungen pro Regel
Beispielabfrage zum Festlegen von Benachrichtigungen für alle fehlgeschlagenen Datenqualitätsregeln mit dem angegebenen benutzerdefinierten Regelnamen für einen Datenqualitätsscan:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.ruleName="custom-name" AND jsonPayload.result="FAILED"
Beispielabfrage zum Festlegen von Benachrichtigungen für alle fehlgeschlagenen Datenqualitätsregeln eines bestimmten Bewertungstyps für einen Datenqualitätsscan:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.evalutionType="PER_ROW" AND jsonPayload.result="FAILED"
Beispielabfrage zum Festlegen von Benachrichtigungen für alle fehlgeschlagenen Datenqualitätsregeln für eine Spalte in der Tabelle, die für einen Datenqualitätsscan verwendet wird:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.column="CInteger" AND jsonPayload.result="FAILED"
Probleme mit der Datenqualität beheben
Für jeden Job mit fehlgeschlagenen Regeln auf Zeilenebene stellt Dataplex eine Abfrage bereit, um die fehlgeschlagenen Datensätze abzurufen. Führen Sie diese Abfrage aus, um die Einträge zu sehen, die nicht mit Ihrer Regel übereinstimmen.
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Namen des Scans, dessen Einträge Sie beheben möchten.
Klicken Sie auf den Tab Jobverlauf.
Klicken Sie auf die Job-ID des Jobs, bei dem Fehler bei der Datenqualität erkannt wurden.
Suchen Sie im geöffneten Fenster mit den Jobergebnissen im Bereich Regeln die Spalte Abfrage zum Abrufen fehlgeschlagener Einträge. Klicken Sie für die fehlgeschlagene Regel auf Abfrage in die Zwischenablage kopieren.
Führen Sie die Abfrage in BigQuery aus, um die Datensätze zu sehen, die zum Abbruch des Jobs geführt haben.
Nicht unterstützt.
Im APIs Explorer finden Sie die Abfrage, mit der Sie Fehlerdatensätze für fehlgeschlagene Jobs abrufen können.
Datenqualitätsscan aktualisieren
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie in der Zeile mit dem zu bearbeitenden Scan auf das Dreipunkt-Menü > Bearbeiten.
Bearbeiten Sie die Werte.
Klicken Sie auf Speichern.
Verwenden Sie den Befehl gcloud dataplex datascans update data-quality
, um die Beschreibung eines Datenqualitätsscans zu aktualisieren:
gcloud dataplex datascans update data-qualityDATASCAN \ --location=LOCATION \ --description=DESCRIPTION
Ersetzen Sie Folgendes:
DATASCAN
: Der Name des Datenqualitätsscans, der aktualisiert werden soll.LOCATION
: Die Region Google Cloud , in der der Datenqualitätsscan erstellt wurde.DESCRIPTION
: Die neue Beschreibung für den Datenqualitätsscan.
Verwenden Sie den APIs Explorer, um Ihren Datenqualitätsscan zu bearbeiten.
Datenqualitätsscan löschen
Rufen Sie in der Google Cloud Console die Seite Datenqualität auf.
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen.
Verwenden Sie den Befehl gcloud dataplex datascans delete
, um einen Datenqualitätsscan zu löschen:
gcloud dataplex datascans deleteDATASCAN \ --location=LOCATION \ --async
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des zu löschenden Datenqualitätsscans.LOCATION
: Die Region Google Cloud , in der der Datenqualitätsscan erstellt wurde.
Nächste Schritte
- Weitere Informationen zur Datenprofilerstellung
- Weitere Informationen zur Datenprofilerstellung
- Anleitung zum Verwalten von Datenqualitätsregeln als Code mit Terraform