Diese Seite wurde von der Cloud Translation API übersetzt.

Datenprofilscans erstellen und verwenden

Mit Dataplex Universal Catalog können Sie allgemeine statistische Merkmale (häufige Werte, Datenverteilung, Anzahl der Nullwerte) der Spalten in Ihren BigQuery-Tabellen identifizieren. Anhand dieser Informationen können Sie Ihre Daten besser verstehen und analysieren.

Weitere Informationen zu Datenprofilscans in Dataplex Universal Catalog finden Sie unter Datenprofilerstellung.

Hinweise

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Erforderliche Rollen

Zum Erstellen von Profilen für BigQuery-Tabellen benötigen Sie die folgenden Berechtigungen:

Wenn Sie einen Datenprofilscan für eine BigQuery-Tabelle ausführen möchten, benötigen Sie die Berechtigung zum Lesen der BigQuery-Tabelle und die Berechtigung zum Erstellen eines BigQuery-Jobs in dem Projekt, das zum Scannen der Tabelle verwendet wird.

Hinweis: Dataplex Universal Catalog erstellt keinen BigQuery-Job im Projekt. Sie benötigen diese Berechtigung jedoch, um einen DryRun-Job zu erstellen, mit dem die Berechtigungen für die Tabelle geprüft werden.
Wenn sich die BigQuery-Tabelle und der Datenprofilscan in verschiedenen Projekten befinden, müssen Sie dem Dataplex Universal Catalog-Dienstkonto die Leseberechtigung für die entsprechende BigQuery-Tabelle erteilen.

Hinweis: Wenn Sie noch keine Datenqualitäts- oder Datenprofilscans erstellt haben oder das BigQuery-Projekt keinen Dataplex Universal Catalog-Lake enthält, erstellen Sie eine Dienstkennung, indem Sie Folgendes ausführen: gcloud beta services identity create --service=dataplex.googleapis.com. Dieser Befehl gibt eine Dataplex Universal Catalog-Dienstkennung zurück, sofern sie vorhanden ist.
Wenn die BigQuery-Daten in einem Dataplex Universal Catalog-Lake organisiert sind, benötigen Sie zum Erstellen eines Datenprofilscans die Dataplex Universal Catalog-Rollen roles/dataplex.metadataReader und roles/dataplex.viewer. Dadurch werden die folgenden Berechtigungen gewährt:
- dataplex.lakes.list
- dataplex.lakes.get
- dataplex.zones.list
- dataplex.zones.get
- dataplex.entities.list
- dataplex.entities.get
- dataplex.operations.get
Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex Universal Catalog-Dienstkonto entweder die Rolle „Storage Object Viewer“ (roles/storage.objectViewer) oder die folgenden Berechtigungen für den Bucket zu:
- storage.buckets.get
- storage.objects.get
Wenn Sie die Ergebnisse des Datenprofilscans auf den BigQuery- und Dataplex Universal Catalog-Seiten in derGoogle Cloud Console für die Quelltabellen veröffentlichen möchten, benötigen Sie die Rolle „BigQuery Data Editor“ (roles/bigquery.dataEditor) für die Tabelle. Alternativ benötigen Sie alle der folgenden Berechtigungen:
- bigquery.tables.get
- bigquery.tables.update
- bigquery.tables.updateData
- bigquery.tables.delete
Wenn Sie die Scanergebnisse in eine BigQuery-Tabelle exportieren möchten, benötigt Ihr Dataplex Universal Catalog-Dienstkonto die Rolle „BigQuery Data Editor“ (roles/bigquery.dataEditor). Dadurch werden die folgenden Berechtigungen gewährt:
- bigquery.datasets.get
- bigquery.tables.create
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.tables.update
- bigquery.tables.updateData
Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie dem Dataplex Universal Catalog-Dienstkonto Berechtigungen für diese Spalten zu. Zum Erstellen oder Aktualisieren von Datenscans sind ebenfalls Berechtigungen für die Spalten erforderlich.
Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex Universal Catalog-Dienstkonto sichtbar sind. Die Zugriffsberechtigungen des einzelnen Nutzers werden bei Richtlinien auf Zeilenebene nicht berücksichtigt.

Rollen und Berechtigungen für Datenscans

Wenn Sie die Datenprofilerstellung verwenden möchten, bitten Sie Ihren Administrator, Ihnen eine der folgenden IAM-Rollen zuzuweisen:

roles/dataplex.dataScanAdmin: Vollständiger Zugriff auf DataScan-Ressourcen.
roles/dataplex.dataScanEditor: Schreibzugriff auf DataScan-Ressourcen.
roles/dataplex.dataScanViewer: Lesezugriff auf DataScan-Ressourcen, mit Ausnahme der Ergebnisse.
roles/dataplex.dataScanDataViewer: Lesezugriff auf DataScan-Ressourcen, einschließlich der Ergebnisse.

In der folgenden Tabelle sind die Berechtigungen für Datenscans aufgeführt:

Name der Berechtigung	Gewährt die Berechtigung für Folgendes:
`dataplex.datascans.create`	`DataScan` erstellen
`dataplex.datascans.delete`	`DataScan` löschen
`dataplex.datascans.get`	`DataScan`-Details ansehen, mit Ausnahme von Ergebnissen
`dataplex.datascans.getData`	`DataScan`-Details ansehen, einschließlich von Ergebnissen
`dataplex.datascans.list`	`DataScan`s auflisten
`dataplex.datascans.run`	`DataScan` ausführen
`dataplex.datascans.update`	`DataScan`-Beschreibung aktualisieren
`dataplex.datascans.getIamPolicy`	Aktuelle IAM-Berechtigungen für den Scan ansehen
`dataplex.datascans.setIamPolicy`	IAM-Berechtigungen für den Scan festlegen

Datenprofilscan erstellen

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf Datenprofilscan erstellen.
Optional: Geben Sie einen Anzeigenamen ein.
Geben Sie eine ID ein. Weitere Informationen finden Sie unter Konventionen für Ressourcennamen.
Optional: Geben Sie eine Beschreibung ein.
Klicken Sie im Feld Tabelle auf Durchsuchen. Wählen Sie die Tabelle aus, die gescannt werden soll, und klicken Sie dann auf Auswählen.

Wählen Sie für Tabellen in multiregionalen Datasets eine Region aus, in der der Datenscan erstellt werden soll.

Wenn Sie die Tabellen durchsuchen möchten, die in Dataplex Universal Catalog-Lakes organisiert sind, klicken Sie auf In Dataplex-Lakes suchen.
Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
- Wenn Sie Inkrementelle Daten auswählen, wählen Sie im Feld Spalte für Zeitstempel eine Spalte vom Typ DATE oder TIMESTAMP aus Ihrer BigQuery-Tabelle aus, die mit dem Hinzufügen neuer Datensätze zunimmt und zum Identifizieren neuer Datensätze verwendet werden kann. Für Tabellen, die auf Grundlage einer Spalte vom Typ DATE oder TIMESTAMP partitioniert sind, wird empfohlen, die Partitionsspalte als Zeitstempelfeld zu verwenden.
Optional: So filtern Sie Ihre Daten:
- Wenn Sie nach Zeilen filtern möchten, aktivieren Sie das Kästchen Zeilen filtern. Geben Sie einen gültigen SQL-Ausdruck ein, der in einer WHERE-Anweisung in GoogleSQL-Syntax verwendet werden kann. Beispiel: col1 >= 0.
  
  Der Filter kann eine Kombination aus SQL-Bedingungen für mehrere Spalten sein. Beispiel: col1 >= 0 AND col2 < 10.
- Wenn Sie nach Spalten filtern möchten, aktivieren Sie das Kästchen Spalten filtern.
  - Wenn Sie Spalten in den Profilscan einbeziehen möchten, klicken Sie im Feld Spalten einschließen auf Durchsuchen. Wählen Sie die Spalten aus, die enthalten sein sollen, und klicken Sie dann auf Auswählen.
  - Wenn Sie Spalten vom Profilscan ausschließen möchten, klicken Sie im Feld Spalten ausschließen auf Durchsuchen. Wählen Sie die auszuschließenden Spalten aus und klicken Sie dann auf Auswählen.
  Hinweis: Sie können Spalten einschließen, Spalten ausschließen oder beides verwenden. Wenn Sie beide Felder verwenden, wählt der Datenprofilscan zuerst die Spalten basierend auf der Eingabe im Feld Spalten einschließen aus und schließt dann die Spalten basierend auf der Eingabe im Feld Spalten ausschließen aus.
Wenn Sie die Stichprobenerhebung auf Ihren Datenprofilscan anwenden möchten, wählen Sie in der Liste Stichprobengröße einen Prozentsatz für die Erhebung aus. Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus.
- Wählen Sie bei größeren Datasets einen niedrigeren Prozentsatz für die Stichprobenerhebung aus. Wenn Sie beispielsweise für eine Tabelle mit einem Umfang von 1 PB einen Wert zwischen 0,1% und 1, 0 % eingeben, werden im Datenprofil 1–10 TB an Daten als Stichprobe erhoben.
- Eine Stichprobe muss mindestens 100 Einträge enthalten, damit ein Ergebnis zurückgegeben wird.
- Bei Scans inkrementeller Daten wird die Stichprobe im Datenprofilscan aus dem neuesten Inkrement erhoben.
Optional: Veröffentlichen Sie die Ergebnisse des Datenprofilscans auf den BigQuery- und Dataplex Universal Catalog-Seiten in derGoogle Cloud Console für die Quelltabelle. Aktivieren Sie das Kästchen Ergebnisse in BigQuery und der Dataplex Catalog-UI veröffentlichen.

Sie können die neuesten Scanergebnisse auf den BigQuery- und Dataplex Universal Catalog-Seiten für die Quelltabelle auf dem Tab Datenprofil ansehen. Wie Sie Nutzern Zugriff auf die veröffentlichten Scanergebnisse gewähren, erfahren Sie im Abschnitt Zugriff auf Datenprofilscan-Ergebnisse gewähren in diesem Dokument.

Die Veröffentlichungsoption ist in den folgenden Fällen möglicherweise nicht verfügbar:
- Sie haben nicht die erforderlichen Berechtigungen für die Tabelle.
- Die Ergebnisse eines anderen Datenqualitätsscans sind veröffentlicht.
Wählen Sie im Bereich Zeitplan eine der folgenden Optionen aus:
- Wiederholen: Der Datenprofilscan wird nach einem Zeitplan ausgeführt: stündlich, täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft und zu welcher Uhrzeit der Scan ausgeführt werden soll. Wenn Sie „benutzerdefiniert“ auswählen, geben Sie den Zeitplan im Cron-Format an.
- On demand: Der Datenprofilscan wird auf Anfrage ausgeführt.
Klicken Sie auf Weiter.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Führen Sie im Abschnitt Scanergebnisse in BigQuery-Tabelle exportieren folgende Schritte aus:
1. Klicken Sie im Feld BigQuery-Dataset auswählen auf Durchsuchen. Wählen Sie ein BigQuery-Dataset zum Speichern der Ergebnisse des Datenprofilscans aus.
2. Geben Sie im Feld BigQuery-Tabelle die Tabelle an, in der die Ergebnisse des Datenprofilscans gespeichert werden sollen. Wenn Sie eine vorhandene Tabelle verwenden, muss sie mit dem Tabellenschema für den Export kompatibel sein. Wenn die angegebene Tabelle nicht vorhanden ist, wird sie von Dataplex Universal Catalog erstellt.
  
  Hinweis :Sie können dieselbe Ergebnistabelle für mehrere Datenprofilscans verwenden.
Optional: Fügen Sie Labels hinzu. Labels sind Schlüssel/Wert-Paare, mit denen Sie verwandte Objekte miteinander oder mit anderen Google Cloud -Ressourcen gruppieren können.
Klicken Sie auf Erstellen, um den Scan zu erstellen.

Wenn Sie den Zeitplan auf „On-Demand“ festlegen, können Sie den Scan auch sofort ausführen, indem Sie auf Scan ausführen klicken.

gcloud

Verwenden Sie zum Erstellen eines Datenprofilscans den gcloud dataplex datascans create data-profile-Befehl.

Wenn die Quelldaten in einem Dataplex Universal Catalog-Lake organisiert sind, fügen Sie das Flag --data-source-entity ein:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

Wenn die Quelldaten nicht in einem Dataplex Universal Catalog-Lake organisiert sind, fügen Sie das Flag --data-source-resource ein:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt werden soll.
DATA_SOURCE_ENTITY: Die Dataplex Universal Catalog-Entität, die die Daten für den Datenprofilscan enthält. Beispiel: projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE: Der Name der Ressource, die die Daten für den Datenprofilscan enthält. Beispiel: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

REST

Verwenden Sie die dataScans.create-Methode, um einen Datenprofilscan zu erstellen.

Tabellenschema exportieren

Wenn Sie die Ergebnisse des Datenprofilscans in eine vorhandene BigQuery-Tabelle exportieren möchten, muss diese mit dem folgenden Tabellenschema kompatibel sein:

Spaltenname	Datentyp der Spalte	Name des Unterfelds (falls zutreffend)	Datentyp des Unterfelds	Modus	Beispiel
data_profile_scan	`struct/record`	`resource_name`	`string`	nullable	`//dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan`
		`project_id`	`string`	nullable	`test-project`
		`location`	`string`	nullable	`us-central1`
		`data_scan_id`	`string`	nullable	`test-datascan`
data_source	`struct/record`	`resource_name`	`string`	nullable	Entität: `//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity` Tabelle: `//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table`
		`dataplex_entity_project_id`	`string`	nullable	`test-project`
		`dataplex_entity_project_number`	`integer`	nullable	`123456789012`
		`dataplex_lake_id`	`string`	nullable	(Nur gültig, wenn die Quelle eine Entität ist) `test-lake`
		`dataplex_zone_id`	`string`	nullable	(Nur gültig, wenn die Quelle eine Entität ist) `test-zone`
		`dataplex_entity_id`	`string`	nullable	(Nur gültig, wenn die Quelle eine Entität ist) `test-entity`
		`table_project_id`	`string`	nullable	`dataplex-table`
		`table_project_number`	`int64`	nullable	`345678901234`
		`dataset_id`	`string`	nullable	(Nur gültig, wenn die Quelle eine Tabelle ist) `test-dataset`
		`table_id`	`string`	nullable	(Nur gültig, wenn die Quelle eine Tabelle ist) `test-table`
data_profile_job_id	`string`			nullable	`caeba234-cfde-4fca-9e5b-fe02a9812e38`
data_profile_job_configuration	`json`	`trigger`	`string`	nullable	`ondemand`/`schedule`
		`incremental`	`boolean`	nullable	`true`/`false`
		`sampling_percent`	`float`	nullable	(0–100) `20.0` (entspricht 20%)
		`row_filter`	`string`	nullable	`col1 >= 0 AND col2 < 10`
		`column_filter`	`json`	nullable	`{"include_fields":["col1","col2"], "exclude_fields":["col3"]}`
job_labels	`json`			nullable	`{"key1":value1}`
job_start_time	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
job_end_time	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
job_rows_scanned	`integer`			nullable	`7500`
column_name	`string`			nullable	`column-1`
column_type	`string`			nullable	`string`
column_mode	`string`			nullable	`repeated`
percent_null	`float`			nullable	(0,0–100,0) `20.0` (entspricht 20%)
percent_unique	`float`			nullable	(0,0–100,0) `92.5`
min_string_length	`integer`			nullable	(Nur gültig, wenn der Spaltentyp „string“ ist) `10`
max_string_length	`integer`			nullable	(Nur gültig, wenn der Spaltentyp „string“ ist) `4`
average_string_length	`float`			nullable	(Nur gültig, wenn der Spaltentyp „string“ ist) `7.2`
min_value	`float`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – „integer“ oder „float“)
max_value	`float`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – „integer“ oder „float“)
average_value	`float`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – „integer“ oder „float“)
standard_deviation	`float`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – „integer“ oder „float“)
quartile_lower	`integer`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – „integer“ oder „float“)
quartile_median	`integer`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – „integer“ oder „float“)
quartile_upper	`integer`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – „integer“ oder „float“)
top_n	`struct/record - repeated`	`value`	`string`	nullable	`"4009"`
		`count`	`integer`	nullable	`20`
		`percent`	`float`	nullable	`10` (entspricht 10 %)

Richtlinien für Exporttabellen

Beachten Sie die folgenden Richtlinien, wenn Sie Daten in BigQueryExport-Tabellen exportieren:

Verwenden Sie für das Feld resultsTable folgendes Format: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}
Verwenden Sie eine BigQuery-Standardtabelle.
Wenn die Tabelle beim Erstellen oder Aktualisieren des Scans nicht vorhanden ist, wird sie von Dataplex Universal Catalog erstellt.
Standardmäßig wird die Tabelle täglich auf Grundlage der Spalte job_start_time partitioniert.
Wenn Sie möchten, dass die Tabelle anders partitioniert wird, oder wenn Sie keine Partition möchten, erstellen Sie die Tabelle mit dem erforderlichen Schema und den erforderlichen Konfigurationen neu und geben Sie diese vorab erstellte Tabelle dann als Ergebnistabelle an.
Die Ergebnistabelle muss sich am selben Speicherort wie die Quelltabelle befinden.
Wenn VPC-SC für das Projekt konfiguriert ist, muss sich die Ergebnistabelle im selben VPC-SC-Perimeter wie die Quelltabelle befinden.
Wenn die Tabelle während der Ausführung des Scans geändert wird, werden die Daten des aktuell ausgeführten Jobs in die vorherige Ergebnistabelle exportiert. Die Tabellenänderung wird erst beim nächsten Scanjob berücksichtigt.
Ändern Sie das Tabellenschema nicht. Wenn Sie benutzerdefinierte Spalten benötigen, erstellen Sie eine Ansicht für die Tabelle.
Um Kosten zu senken, legen Sie je nach Anwendungsfall ein Ablaufdatum für die Partition fest. Weitere Informationen finden Sie unter Partitionsablauf festlegen.

Mehrere Datenprofilscans erstellen

Sie können Datenprofilscans für mehrere Tabellen in einem BigQuery-Dataset gleichzeitig konfigurieren, indem Sie die Google Cloud Konsole verwenden.

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf Datenprofilscan erstellen.
Wählen Sie die Option Mehrere Datenprofilscans aus.
Geben Sie ein ID Präfix ein. In Dataplex Universal Catalog werden Scan-IDs automatisch anhand des angegebenen Präfixes und eindeutiger Suffixe generiert.
Geben Sie eine Beschreibung für alle Datenprofilscans ein.
Klicken Sie im Feld Dataset auf Durchsuchen. Wählen Sie ein Dataset aus, aus dem Sie Tabellen auswählen möchten. Klicken Sie auf Auswählen.
Wenn das Dataset multiregional ist, wählen Sie eine Region aus, in der die Datenprofilscans erstellt werden sollen.
Konfigurieren Sie die allgemeinen Einstellungen für die Scans:
1. Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
  
  Hinweis :Wenn Sie Inkrementell auswählen, können Sie nur Tabellen verwenden, die auf Grundlage einer Spalte vom Typ DATE oder TIMESTAMP partitioniert sind.
2. Wenn Sie die Stichprobenerhebung auf die Datenprofilscans anwenden möchten, wählen Sie in der Liste Stichprobengröße einen Prozentsatz für die Erhebung aus.
  
  Wählen Sie einen Prozentwert zwischen 0,0 % und 100,0 % mit bis zu drei Dezimalstellen aus.
3. Optional: Veröffentlichen Sie die Ergebnisse des Datenprofilscans auf den BigQuery- und Dataplex Universal Catalog-Seiten in derGoogle Cloud Console für die Quelltabelle. Aktivieren Sie das Kästchen Ergebnisse in BigQuery und der Dataplex Catalog-UI veröffentlichen.
  
  Sie können die neuesten Scanergebnisse auf den BigQuery- und Dataplex Universal Catalog-Seiten für die Quelltabelle auf dem Tab Datenprofil ansehen. Wie Sie Nutzern Zugriff auf die veröffentlichten Scanergebnisse gewähren, erfahren Sie im Abschnitt Zugriff auf Datenprofilscanergebnisse gewähren in diesem Dokument.
  
  Hinweis :Sie müssen Tabellen auswählen, für die noch keine Scans mit veröffentlichten Ergebnissen vorhanden sind.
4. Wählen Sie im Bereich Zeitplan eine der folgenden Optionen aus:
  - Wiederholen: Die Datenprofilscans werden nach einem Zeitplan ausgeführt: stündlich, täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft und zu welcher Uhrzeit die Scans ausgeführt werden sollen. Wenn Sie „benutzerdefiniert“ auswählen, geben Sie den Zeitplan im Cron-Format an.
  - On demand: Die Datenprofilscans werden auf Anfrage ausgeführt.
Klicken Sie auf Weiter.
Klicken Sie im Feld Tabellen auswählen auf Durchsuchen. Wählen Sie eine oder mehrere Tabellen aus, die gescannt werden sollen, und klicken Sie auf Auswählen.
Klicken Sie auf Weiter.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Führen Sie im Abschnitt Scanergebnisse in BigQuery-Tabelle exportieren folgende Schritte aus:
1. Klicken Sie im Feld BigQuery-Dataset auswählen auf Durchsuchen. Wählen Sie ein BigQuery-Dataset zum Speichern der Ergebnisse des Datenprofilscans aus.
2. Geben Sie im Feld BigQuery-Tabelle die Tabelle an, in der die Ergebnisse des Datenprofilscans gespeichert werden sollen. Wenn Sie eine vorhandene Tabelle verwenden, muss sie mit dem Tabellenschema für den Export kompatibel sein. Wenn die angegebene Tabelle nicht vorhanden ist, wird sie von Dataplex Universal Catalog erstellt.
  
  In Dataplex Universal Catalog wird für alle Datenprofilscans dieselbe Ergebnistabelle verwendet.
Optional: Fügen Sie Labels hinzu. Labels sind Schlüssel/Wert-Paare, mit denen Sie verwandte Objekte zusammen oder mit anderen Google Cloud -Ressourcen gruppieren können.
Klicken Sie auf Erstellen, um die Scans zu erstellen.

Wenn Sie den Zeitplan auf „On-Demand“ festlegen, können Sie die Scans auch jetzt ausführen, indem Sie auf Scan ausführen klicken.

Datenprofilscan ausführen

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Datenprofilscan, der ausgeführt werden soll.
Klicken Sie auf Jetzt ausführen.

gcloud

Verwenden Sie den gcloud dataplex datascans run-Befehl, um einen Datenprofilscan auszuführen:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.

REST

Verwenden Sie die dataScans.run-Methode, um einen Datenprofilscan auszuführen.

Ergebnisse des Datenprofilscans ansehen

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenprofilscans.
- Im Bereich Übersicht werden Informationen zu den letzten Jobs angezeigt, z. B. wann der Scan ausgeführt wurde, die Anzahl der gescannten Tabelleneinträge und der Jobstatus.
- Im Bereich Konfiguration für Datenprofilscan werden Details zum Scan angezeigt.
Wenn Sie detaillierte Informationen zu einem Job aufrufen möchten, z. B. die Spalten der gescannten Tabelle, Statistiken zu den im Scan gefundenen Spalten und die Joblogs, klicken Sie auf den Tab Jobverlauf. Klicken Sie dann auf eine Job-ID.

gcloud

Verwenden Sie den Befehl gcloud dataplex datascans jobs describe, um die Ergebnisse eines Datenprofilscan-Jobs aufzurufen:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ersetzen Sie die folgenden Variablen:

JOB: Die Job-ID des Datenprofilscan-Jobs.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.
DATASCAN: Der Name des Datenprofilscans, zu dem der Job gehört.
--view=FULL: Wenn Sie das Ergebnis des Scanjobs sehen möchten, geben Sie FULL an.

REST

Verwenden Sie die Methode dataScans.get, um die Ergebnisse eines Datenprofilscans anzusehen.

Veröffentlichte Ergebnisse ansehen

Wenn die Ergebnisse des Datenprofilscans auf den BigQuery- und Dataplex Universal Catalog-Seiten in der Google Cloud Console veröffentlicht werden, können Sie die neuesten Scanergebnisse auf dem Tab Datenprofil der Quelltabelle ansehen.

Rufen Sie in der Google Cloud -Console die Dataplex Universal Catalog-Seite Verarbeiten auf.

Zur Suche
Suchen Sie nach der Tabelle und wählen Sie sie aus.
Klicken Sie auf den Tab Datenprofil.

Die zuletzt veröffentlichten Ergebnisse werden angezeigt.

Hinweis :Veröffentlichte Ergebnisse sind möglicherweise nicht verfügbar, wenn ein Scan zum ersten Mal ausgeführt wird.

Letzten Datenprofilscan-Job ansehen

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenprofilscans.
Klicken Sie auf den Tab Letzte Job-Ergebnisse.

Auf dem Tab Letzte Jobergebnisse finden Sie Informationen zum letzten Job, sofern mindestens ein Lauf erfolgreich abgeschlossen wurde. Dort werden die Spalten der gescannten Tabelle und Statistiken zu den Spalten aufgeführt, die beim Scan gefunden wurden.

gcloud

Wenn Sie den letzten erfolgreichen Datenprofilscan aufrufen möchten, verwenden Sie den gcloud dataplex datascans describe-Befehl:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans, für den Sie den letzten Job aufrufen möchten.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.
--view=FULL: Wenn Sie das Ergebnis des Scanjobs sehen möchten, geben Sie FULL an.

REST

Verwenden Sie die Methode dataScans.get, um den letzten Scanjob aufzurufen.

Historische Scanergebnisse ansehen

In Dataplex Universal Catalog wird der Verlauf der Datenprofilscans der letzten 300 Jobs oder des letzten Jahres gespeichert (der kürzere Zeitraum gilt).

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenprofilscans.
Klicken Sie auf den Tab Jobverlauf.

Auf dem Tab Jobverlauf finden Sie Informationen zu früheren Jobs, z. B. die Anzahl der in jedem Job gescannten Datensätze, den Jobstatus und die Ausführungszeit des Jobs.
Wenn Sie die Details zu einem Job aufrufen möchten, klicken Sie in der Spalte Job-ID auf einen der Jobs.

gcloud

Wenn Sie historische Datenprofilscan-Jobs aufrufen möchten, verwenden Sie den gcloud dataplex datascans jobs list-Befehl:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.
DATASCAN: Der Name des Datenprofilscans, für den Sie Jobs ansehen möchten.

REST

Wenn Sie historische Datenprofilscan-Jobs aufrufen möchten, verwenden Sie die dataScans.jobs.list-Methode.

So ermöglichen Sie den Nutzern in Ihrer Organisation, die Scanergebnisse aufzurufen:

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Datenqualitätsscan, dessen Ergebnisse Sie freigeben möchten.
Klicken Sie auf den Tab Berechtigungen.
Gehen Sie dazu so vor:
- Wenn Sie einem Hauptkonto Zugriff gewähren möchten, klicken Sie auf Zugriff gewähren. Weisen Sie dem zugehörigen Hauptkonto die Rolle Dataplex DataScan DataViewer zu.
- Wenn Sie den Zugriff eines Hauptkontos entfernen möchten, wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex DataScan DataViewer entfernen möchten. Klicken Sie auf Zugriff entfernen und bestätigen Sie den Vorgang, wenn Sie dazu aufgefordert werden.

Scans von Datenprofilen für eine bestimmte Tabelle verwalten

In diesem Dokument wird beschrieben, wie Sie Datenprofilscans in Ihrem Projekt über die Seite Datenprofilerstellung und ‑qualität im Dataplex Universal Catalog in der Google Cloud Console verwalten.

Sie können auch Scans für Datenprofile erstellen und verwalten, wenn Sie mit einer bestimmten Tabelle arbeiten. Rufen Sie in der Google Cloud -Console auf der Seite „Dataplex Universal Catalog“ für die Tabelle den Tab Datenprofil auf. Gehen Sie dazu so vor:

Rufen Sie in der Google Cloud -Console die Seite Dataplex Universal Catalog Search auf.

Zur Suche

Suchen Sie nach der Tabelle und wählen Sie sie aus.
Klicken Sie auf den Tab Datenprofil.
Je nachdem, ob für die Tabelle ein Datenprofilscan mit veröffentlichten Ergebnissen vorhanden ist, haben Sie folgende Möglichkeiten, mit den Datenprofilscans der Tabelle zu arbeiten:
- Ergebnisse des Datenprofilscans werden veröffentlicht: Die neuesten veröffentlichten Scanergebnisse werden auf der Seite angezeigt.
  
  Wenn Sie die Datenprofilscans für diese Tabelle verwalten möchten, klicken Sie auf Datenprofilscan und wählen Sie dann eine der folgenden Optionen aus:
  - Neuen Scan erstellen: Erstellen Sie einen neuen Datenprofilscan. Weitere Informationen finden Sie in diesem Dokument im Abschnitt Datenprofilscan erstellen. Wenn Sie einen Scan über die Detailseite einer Tabelle erstellen, ist die Tabelle bereits ausgewählt.
  - Jetzt ausführen: Scan ausführen
  - Scankonfiguration bearbeiten: Bearbeiten Sie Einstellungen wie den Anzeigenamen, Filter, die Stichprobengröße und den Zeitplan.
  - Scanberechtigungen verwalten: Sie können festlegen, wer auf die Scanergebnisse zugreifen darf. Weitere Informationen finden Sie im Abschnitt Zugriff auf Ergebnisse von Datenprofilscans gewähren in diesem Dokument.
  - Historische Ergebnisse ansehen: Hier können Sie detaillierte Informationen zu früheren Datenprofilscan-Jobs aufrufen. Weitere Informationen finden Sie in den Abschnitten Ergebnisse des Datenprofilscans ansehen und Verlaufsergebnisse von Scans ansehen in diesem Dokument.
  - Alle Scans ansehen: Hier sehen Sie eine Liste der Datenprofilscans, die für diese Tabelle gelten.
- Ergebnisse des Datenprofilscans werden nicht veröffentlicht: Klicken Sie auf das Menü neben Schnelles Datenprofil und wählen Sie eine der folgenden Optionen aus:
  - Datenprofilerstellung anpassen: Erstellen Sie einen neuen Datenprofilscan. Weitere Informationen finden Sie in diesem Dokument im Abschnitt Datenprofilscan erstellen. Wenn Sie einen Scan über die Detailseite einer Tabelle erstellen, ist die Tabelle bereits ausgewählt.
  - Vorherige Profile ansehen: Hier sehen Sie eine Liste der Datenprofilscans, die für diese Tabelle gelten.

Datenprofilscan aktualisieren

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Namen eines Datenprofilscans.
Klicken Sie auf Bearbeiten und bearbeiten Sie dann die Werte.
Klicken Sie auf Speichern.

gcloud

Verwenden Sie den gcloud dataplex datascans update data-profile-Befehl, um einen Datenprofilscan zu aktualisieren:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des zu aktualisierenden Datenprofilscans.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.
DESCRIPTION: Die neue Beschreibung für den Datenprofilscan.

REST

Verwenden Sie die dataScans.patch-Methode, um einen Datenprofilscan zu bearbeiten.

Datenprofilscan löschen

Console

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Datenprofilerstellung und ‑qualität auf.

Zu „Datenprofilerstellung und ‑qualität“
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen und bestätigen Sie den Vorgang, wenn Sie dazu aufgefordert werden.

gcloud

Verwenden Sie den gcloud dataplex datascans delete-Befehl, um einen Datenprofilscan zu löschen:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des zu löschenden Datenprofilscans.
LOCATION: Die Google Cloud -Region, in der der Datenprofilscan erstellt wurde.

REST

Verwenden Sie zum Löschen eines Datenprofilscans die Methode dataScans.delete.

Datenprofilscans erstellen und verwenden

Hinweise

Erforderliche Rollen

Rollen und Berechtigungen für Datenscans

Datenprofilscan erstellen

Console

gcloud

REST

Tabellenschema exportieren

Richtlinien für Exporttabellen

Mehrere Datenprofilscans erstellen

Datenprofilscan ausführen

Console

gcloud

REST

Ergebnisse des Datenprofilscans ansehen

Console

gcloud

REST

Veröffentlichte Ergebnisse ansehen

Letzten Datenprofilscan-Job ansehen

Console

gcloud

REST

Historische Scanergebnisse ansehen

Console

gcloud

REST

Zugriff auf Ergebnisse von Datenprofilscans gewähren

Scans von Datenprofilen für eine bestimmte Tabelle verwalten

Datenprofilscan aktualisieren

Console

gcloud

REST

Datenprofilscan löschen

Console

gcloud

REST

Nächste Schritte