Diese Seite wurde von der Cloud Translation API übersetzt.

Datenprofilscans erstellen und verwenden

Auf dieser Seite erfahren Sie, wie Sie einen Datenprofilscan mithilfe der Google Cloud Console, Google Cloud CLI oder REST API

Weitere Informationen zu Dataplex-Datenprofilscans finden Sie unter Datenprofilerstellung

Hinweise

Aktivieren Sie in der Google Cloud Console die Dataplex API.

API aktivieren

Berechtigungen

Sie benötigen die folgenden Berechtigungen, um Profile für BigQuery-Tabellen zu erstellen:

Zum Ausführen eines Datenprofilscans für eine BigQuery-Tabelle benötigen Sie die Berechtigung, die BigQuery-Tabelle zu lesen, einen BigQuery-Job in dem Projekt erstellen, das zum Scannen der Tabelle verwendet wird.

Hinweis: Dataplex erstellt keinen BigQuery-Job in für das Projekt. Sie benötigen diese Berechtigung jedoch, um einen DryRun-Job zu erstellen, prüfen Sie die Berechtigungen für die Tabelle.
Wenn sich die BigQuery-Tabelle und der Datenprofilscan in Projekten arbeiten, müssen Sie dem Dataplex-Dienst Leseberechtigung für das Konto für die entsprechende BigQuery-Tabelle.

Hinweis: Wenn Sie noch keine Datenqualitäts- oder Datenprofilscans erstellt haben oder keinen Dataplex-Lake in BigQuery haben, Projekt und erstellen Sie dann mit dem folgenden Befehl eine Dienst-ID: gcloud beta services identity create --service=dataplex.googleapis.com Dieser Befehl gibt eine Dataplex-Dienst-ID zurück, sofern vorhanden.
Wenn die BigQuery-Daten in einem Dataplex organisiert sind Zum Erstellen eines Datenprofilscans benötigen Sie das Dataplex die Rollen roles/dataplex.metadataReader und roles/dataplex.viewer. Hierdurch werden die folgenden Berechtigungen gewährt:
- dataplex.lakes.list
- dataplex.lakes.get
- dataplex.zones.list
- dataplex.zones.get
- dataplex.entities.list
- dataplex.entities.get
- dataplex.operations.get
Wenn Sie eine externe BigQuery-Tabelle Cloud Storage und weisen Sie dann das Dataplex-Dienstkonto zu entweder Cloud Storage-Objektbetrachter (roles/storage.objectViewer) Rolle oder die folgenden Berechtigungen für den Bucket:
- storage.buckets.get
- storage.objects.get
Wenn Sie die Ergebnisse des Datenprofilscans im BigQuery- und Data Catalog-Seiten in der Google Cloud Console für die Quelltabellen verwenden möchten, benötigen Sie entweder die Berechtigung IAM-Rolle „BigQuery-Datenbearbeiter“ (roles/bigquery.dataEditor) oder die Berechtigung bigquery.tables.update für die Tabelle.
Zum Exportieren der Scanergebnisse in eine BigQuery-Tabelle Dataplex-Dienstkonto benötigt die BigQuery- Rolle „Datenbearbeiter“ (roles/bigquery.dataEditor). Dies gewährt Folgendes Berechtigungen:
- bigquery.datasets.get
- bigquery.tables.create
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.tables.update
- bigquery.tables.updateData
Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie diesen Spalten die Dataplex-Dienstkontoberechtigungen zu. Der Nutzer, der einen Datenscan erstellt oder aktualisiert, benötigt auch Berechtigungen für die Spalten.
Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex-Dienstkonto sichtbar sind. Die Zugriffsberechtigungen der einzelnen Nutzer werden bei Richtlinien auf Zeilenebene nicht ausgewertet.

Datenscanrollen und ‐berechtigungen

Zur Verwendung der Datenprofilerstellung weist ein Projektadministrator entweder eine vordefinierte Rolle zu mit bereits gewährten Berechtigungen oder mit einzelnen Berechtigungen. Die Rollen sind:

roles/dataplex.dataScanAdmin: Vollständiger Zugriff auf DataScan Ressourcen.
roles/dataplex.dataScanEditor: Schreibzugriff auf DataScan-Ressourcen.
roles/dataplex.dataScanViewer: Lesezugriff auf DataScan Ressourcen, ohne die Ergebnisse.
roles/dataplex.dataScanDataViewer: Lesezugriff auf DataScan Ressourcen, einschließlich der Ergebnisse.

In der folgenden Tabelle sind die Datenscan-Berechtigungen aufgeführt:

Name der Berechtigung	Erteilt folgende Berechtigungen:
`dataplex.datascans.create`	`DataScan` erstellen
`dataplex.datascans.delete`	`DataScan` löschen
`dataplex.datascans.get`	Details zu `DataScan` ohne Ergebnisse ansehen
`dataplex.datascans.getData`	Details zu `DataScan` ansehen, einschließlich der Ergebnisse
`dataplex.datascans.list`	Liste `DataScan`s
`dataplex.datascans.run`	`DataScan` ausführen
`dataplex.datascans.update`	Beschreibung von `DataScan` aktualisieren
`dataplex.datascans.getIamPolicy`	Aktuelle IAM-Berechtigungen für den Scan ansehen
`dataplex.datascans.setIamPolicy`	IAM-Berechtigungen für den Scan festlegen

Datenprofilscan erstellen

Console

Rufen Sie in der Google Cloud Console die Seite Profil auf.

Zum Dataplex-Profil
Klicken Sie auf Datenprofilscan erstellen.
Geben Sie einen Anzeigenamen ein.
Wenn Sie die automatisch generierte Scan-ID ändern möchten, geben Sie Ihre eigene an. Weitere Informationen finden Sie unter Namenskonvention für Ressourcen.
Optional: Geben Sie eine Beschreibung ein.
Klicken Sie im Feld Tabelle auf Durchsuchen.
Wählen Sie eine Tabelle aus und klicken Sie auf Auswählen.
Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
- Wenn Sie Inkrementelle Daten auswählen, gehen Sie im Feld Zeitstempelspalte folgendermaßen vor: wählen Sie eine Spalte vom Typ DATE oder TIMESTAMP aus Ihrem BigQuery-Tabelle, die monoton zunimmt und zur Identifizierung neuer Datensätze. Für Tabellen, die nach einer Spalte des Typs partitioniert sind DATE oder TIMESTAMP, wir empfehlen die Verwendung der Partitionsspalte als Zeitstempel ein.
Um Stichproben auf Ihren Datenprofilscan anzuwenden, wählen Sie im Feld Stichprobengröße einen Stichprobenprozentsatz aus.
- Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu 3 Dezimalstellen.
- Wählen Sie bei größeren Datasets einen niedrigeren Stichprobenprozentsatz aus. Beispiel: für eine ~1 PB-Tabelle geben Sie einen Wert zwischen 0, 1% und 1,0 % ein. Dataplex erstellt Stichproben aus 1–10 TB Daten.
- Sie benötigen mindestens 100 Datensätze in den Stichprobendaten, um ein Ergebnis zurückzugeben.
- Bei inkrementellen Datenscans wendet Dataplex Stichproben auf das letzte Inkrement.
Um nach Zeilen zu filtern, klicken Sie auf Filter und wählen Sie Zeilen filtern aus.
- Geben Sie einen gültigen SQL-Ausdruck ein, der in einer WHERE-Klausel in BigQuery-Standard-SQL-Syntax. Beispiel: col1 >= 0.
- Der Filter kann eine Kombination aus SQL-Bedingungen über mehrere Spalten. Beispiel: col1 >= 0 AND col2 < 10.
Optional: Klicken Sie auf Filter. Klicken Sie das Kästchen Spalten filtern an.

a. Klicken Sie im Feld Spalten einschließen auf Durchsuchen.
- Geben Sie alle Spalten an, die in den Profilscan einbezogen werden sollen. Wählen Sie das Spalten auswählen, indem Sie die entsprechenden Kästchen anklicken und dann auf Auswählen klicken.
b. Klicken Sie im Feld Spalten ausschließen auf Durchsuchen.
- Geben Sie alle Spalten an, die aus dem Profilscan ausgeschlossen werden sollen. Wählen Sie das Spalten auswählen, indem Sie die entsprechenden Kästchen anklicken und dann auf Auswählen klicken.
Hinweis: Sie können Spalten einschließen, Spalten ausschließen oder beides verwenden. Wenn verwenden Sie beide Felder, dann wählt Dataplex zuerst das Spalten basierend auf Ihrer Eingabe im Feld Spalten einschließen schließt die Spalten basierend auf Ihrer Eingabe im Feld Spalten ausschließen aus.
Optional: Veröffentlichen Sie die Ergebnisse des Datenprofilscans im BigQuery- und Data Catalog-Seiten in der Google Cloud Console für die Quelltabelle Klicken Sie auf das Ergebnisse in der Benutzeroberfläche von BigQuery und Dataplex Catalog veröffentlichen .

Die neuesten Scanergebnisse finden Sie auf dem Tab Datenprofil in der BigQuery- und Data Catalog-Seiten für die Quelle . So ermöglichen Sie Nutzern den Zugriff auf die veröffentlichten Scanergebnisse: Siehe Veröffentlichte Ergebnisse teilen.

In den folgenden Fällen ist die Veröffentlichungsoption möglicherweise nicht verfügbar:
- Sie haben nicht die erforderlichen Berechtigungen für die Tabelle.
- Bei einem weiteren Datenqualitätsscan werden Ergebnisse veröffentlicht.
Weitere Informationen zu den Berechtigungen, die zum Aufrufen der veröffentlichten Ergebnissen finden Sie unter Berechtigungen.
Optional: Scanergebnisse in einen BigQuery-Standard exportieren . Klicken Sie auf Browse (Durchsuchen), um ein vorhandenes BigQuery auszuwählen. Dataset zum Speichern der Ergebnisse des Datenprofilscans.

Wenn die angegebene Tabelle nicht vorhanden ist, erstellt Dataplex sie für von dir. Wenn Sie eine vorhandene Tabelle verwenden, prüfen Sie, ob sie kompatibel ist. mit dem Tabellenschema, das weiter unten in diesem Abschnitt beschrieben wird.

Hinweis: Sie können dieselbe Ergebnistabelle freigeben, um Ergebnisse aus mehrere Datenprofilscans ausführen.
Optional: Fügen Sie Labels hinzu. Labels sind key:value-Paare, mit denen Sie Verwandte Objekte zusammen oder mit anderen Google Cloud-Ressourcen kombinieren.
Wählen Sie unter Zeitplanoptionen eine der folgenden Optionen aus:
- Wiederholen: Führen Sie den Scanjob für das Datenprofil nach einem Zeitplan aus: täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft der Scan ausgeführt werden soll, zu welchem Zeitpunkt. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie cron-Format an, um den Parameter ein.
- On-Demand: Erstellen Sie Ihren Datenprofilscan und führen Sie ihn jederzeit aus mit der Aktion "Jetzt ausführen".
Klicken Sie auf Erstellen.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofilscan zu erstellen:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY
| --data-source-resource=DATA_SOURCE_RESOURCE

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans.
LOCATION: Die Google Cloud-Region, in der erstellt werden soll. des Datenprofilscans.
DATA_SOURCE_ENTITY: Das Dataplex Entität, die die Daten für den Datenprofilscan enthält. Beispiel: projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE: der Name der Ressource der die Daten für den Datenprofilscan enthält. Beispiel: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.

REST

Verwenden Sie APIs Explorer, um einen Datenprofilscan zu erstellen.

Mehrere Datenprofilscans erstellen

Console

Rufen Sie in der Google Cloud Console die Seite Profil auf.

Zum Dataplex-Profil
Klicken Sie auf Mehrere Profilscans erstellen.
Geben Sie ein ID-Präfix ein. Dataplex generiert Scan automatisch IDs mithilfe des angegebenen Präfixes und der eindeutigen Suffixe.
Geben Sie eine Beschreibung für alle Datenprofilscans ein.
Klicken Sie im Feld Dataset auf Durchsuchen. Dataset zur Auswahl von Tabellen auswählen aus. Klicken Sie auf Auswählen.
Wenn das Dataset multiregional ist, wählen Sie eine Region aus, in der Sie das Dataset erstellen möchten. die von den Datenprofilen gescannt werden.
Wählen Sie Allgemeine Konfigurationsoptionen aus:
1. Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
  
  Hinweis: Wenn Sie Inkrementelle Daten auswählen, können Sie nur Tabellen auswählen die nach einer Spalte vom Typ DATE oder TIMESTAMP partitioniert sind.
2. Um Stichproben auf Ihre Datenprofilscans anzuwenden, wählen Sie im Feld Stichprobengröße einen Stichprobenprozentsatz aus.
  
  Wähle einen Prozentwert zwischen 0,0% und 100,0% mit bis zu 3 Dezimalstellen aus. Ziffern.
3. Um die Ergebnisse aller Scans anzuzeigen, wählen Sie Veröffentlichung aus. Sie können die Ergebnisse auf dem Tab Profil von BigQuery oder Details zur Data Catalog-Tabelle. Stellen Sie sicher, dass Sie bigquery.tables.update-Berechtigungen für die Quelltabellen.
  
  Hinweis: Sie müssen Tabellen auswählen, für die keine Scans vorhanden sind. Veröffentlichung ihrer Ergebnisse.
4. Wählen Sie unter Zeitplanoptionen eine der folgenden Optionen aus:
  1. Wiederholen: Führen Sie die Scanjobs Ihres Datenprofils nach einem Zeitplan aus. Definieren wie oft der Scan ausgeführt werden soll (täglich, wöchentlich, monatlich oder benutzerdefiniert) und zu welchem Zeitpunkt. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie cron. Format zum Angeben des Zeitplans.
  2. On-Demand: Erstellen Sie Ihre Datenprofil-Scanjobs und führen Sie sie unter indem Sie auf Ausführen klicken.
Klicken Sie in der Option Tabellen auswählen auf Durchsuchen. Wählen Sie eine oder mehrere der folgenden Optionen aus: die zu scannenden Tabellen an. Klicken Sie auf Auswählen.
Wählen Sie Weitere Einstellungen aus:
1. Um die Ergebnisse Ihrer Datenprofilscans BigQuery-Tabelle Ihrer Wahl, wählen Sie eine Tabelle in Exportergebnisse in BigQuery-Tabelle Dataplex Die Ergebnisse werden für jeden Scan automatisch in diese Tabelle kopiert und gespeichert. Job.
  1. Klicken Sie auf Durchsuchen, um ein Dataset auszuwählen.
    
    Hinweis: Das Dataplex-Dienstkonto sollte und in eine Tabelle in diesem Dataset schreiben.
  2. Geben Sie eine BigQuery-Tabelle ein, in der die Ergebnisse gespeichert werden sollen. Dies kann eine vorhandene Tabelle sein, die von anderen Dataplex-Daten verwendet wird um die Ergebnisse zu speichern. Wenn es keine solche Tabelle mit dem Namen angeben, erstellt Dataplex die Tabelle.
2. Fügen Sie Labels hinzu, um Ihren Datenprofilscan mit Anmerkungen zu versehen.
Klicken Sie auf Scan ausführen, um alle Scans zu erstellen und auszuführen. Diese Option ist nur für On-Demand-Scans verfügbar.
Klicken Sie auf Erstellen, um alle Scans zu erstellen.

gcloud

Nicht unterstützt.

REST

Nicht unterstützt.

Tabellenschema exportieren

Wenn Sie die Ergebnisse des Datenprofilscans in ein vorhandenes BigQuery-Tabelle überprüfen, ob sie mit dem folgendes Tabellenschema:

Spaltenname	Datentyp der Spalte	Name des Unterfelds (falls zutreffend)	Datentyp des Unterfelds	Modus	Beispiel
data_profile_scan	`struct/record`	`resource_name`	`string`	Nullwerte zulässig	`//dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan`
		`project_id`	`string`	Nullwerte zulässig	`test-project`
		`location`	`string`	Nullwerte zulässig	`us-central1`
		`data_scan_id`	`string`	Nullwerte zulässig	`test-datascan`
data_source	`struct/record`	`resource_name`	`string`	Nullwerte zulässig	Entitätsfall: `//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity` Groß-/Kleinschreibung von Tabellen: `//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table`
		`dataplex_entity_project_id`	`string`	Nullwerte zulässig	`test-project`
		`dataplex_entity_project_number`	`integer`	Nullwerte zulässig	`123456789012`
		`dataplex_lake_id`	`string`	Nullwerte zulässig	(Nur gültig, wenn die Quelle eine Entität ist) `test-lake`
		`dataplex_zone_id`	`string`	Nullwerte zulässig	(Nur gültig, wenn die Quelle eine Entität ist) `test-zone`
		`dataplex_entity_id`	`string`	Nullwerte zulässig	(Nur gültig, wenn die Quelle eine Entität ist) `test-entity`
		`table_project_id`	`string`	Nullwerte zulässig	`dataplex-table`
		`table_project_number`	`int64`	Nullwerte zulässig	`345678901234`
		`dataset_id`	`string`	Nullwerte zulässig	(Nur gültig, wenn die Quelle eine Tabelle ist) `test-dataset`
		`table_id`	`string`	Nullwerte zulässig	(Nur gültig, wenn die Quelle eine Tabelle ist) `test-table`
data_profile_job_id	`string`			Nullwerte zulässig	`caeba234-cfde-4fca-9e5b-fe02a9812e38`
data_profile_job_configuration	`json`	`trigger`	`string`	Nullwerte zulässig	`ondemand`/`schedule`
		`incremental`	`boolean`	Nullwerte zulässig	`true`/`false`
		`sampling_percent`	`float`	Nullwerte zulässig	(0–100) `20.0` (steht für 20%)
		`row_filter`	`string`	Nullwerte zulässig	`col1 >= 0 AND col2 < 10`
		`column_filter`	`json`	Nullwerte zulässig	`{"include_fields":["col1","col2"], "exclude_fields":["col3"]}`
job_labels	`json`			Nullwerte zulässig	`{"key1":value1}`
job_start_time	`timestamp`			Nullwerte zulässig	`2023-01-01 00:00:00 UTC`
job_end_time	`timestamp`			Nullwerte zulässig	`2023-01-01 00:00:00 UTC`
job_rows_scanned	`integer`			Nullwerte zulässig	`7500`
column_name	`string`			Nullwerte zulässig	`column-1`
column_type	`string`			Nullwerte zulässig	`string`
column_mode	`string`			Nullwerte zulässig	`repeated`
percent_null	`float`			Nullwerte zulässig	(0,0–100,0) `20.0` (steht für 20%)
percent_unique	`float`			Nullwerte zulässig	(0,0–100,0) `92.5`
min_string_length	`integer`			Nullwerte zulässig	(nur gültig, wenn der Spaltentyp „String“ ist) `10`
max_string_length	`integer`			Nullwerte zulässig	(nur gültig, wenn der Spaltentyp „String“ ist) `4`
average_string_length	`float`			Nullwerte zulässig	(nur gültig, wenn der Spaltentyp „String“ ist) `7.2`
min_value	`float`			Nullwerte zulässig	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
max_value	`float`			Nullwerte zulässig	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
average_value	`float`			Nullwerte zulässig	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
standard_deviation	`float`			Nullwerte zulässig	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
quartile_lower	`integer`			Nullwerte zulässig	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
quartile_median	`integer`			Nullwerte zulässig	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
quartile_upper	`integer`			Nullwerte zulässig	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
top_n	`struct/record - repeated`	`value`	`string`	Nullwerte zulässig	`"4009"`
		`count`	`integer`	Nullwerte zulässig	`20`
		`percent`	`float`	Nullwerte zulässig	`10` (steht für 10%)

Tabelleneinrichtung exportieren

Beim Exportieren nach BigQueryExport befolgen Sie diese Richtlinien:

Verwenden Sie für das Feld resultsTable das folgende Format: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
Verwenden Sie eine BigQuery-Standardtabelle.
Ist die Tabelle beim Erstellen oder Aktualisieren des Scans nicht vorhanden, Dataplex erstellt die Tabelle für Sie.
Standardmäßig wird die Tabelle täglich nach der Spalte job_start_time partitioniert.
Wenn die Tabelle in anderen Konfigurationen partitioniert werden soll nicht möchten, erstellen Sie die Tabelle mit den erforderlichen und Konfigurationen erstellen und die vorab erstellte Tabelle Ergebnistabelle.
Die Ergebnistabelle muss sich am selben Speicherort wie die Quelltabelle befinden.
Wenn VPC-SC für das Projekt konfiguriert ist, muss sich die Ergebnistabelle im denselben VPC-SC-Perimeter wie die Quelltabelle.
Wenn die Tabelle während der Ausführungsphase des Scans geändert wird, ist der aktuelle Wert ausgeführte Jobexporte in die vorherige Ergebnistabelle und die Tabellenänderung wird ab dem nächsten Scanjob übernommen.
Ändern Sie nicht das Tabellenschema. Wenn Sie benutzerdefinierte Spalten benötigen, erstellen Sie eine Ansicht. auf dem Tisch.
Wenn Sie die Kosten senken möchten, können Sie je nach Anwendungsfall eine Ablaufzeit für die Partition festlegen. Weitere Informationen finden Sie unter Ablaufdatum für Partition festlegen.

Datenprofilscan ausführen

Console

Rufen Sie in der Google Cloud Console Dataplex auf Profilseite hinzu. Profil aufrufen
Klicken Sie auf den Datenprofilscan, um ihn auszuführen.
Klicken Sie auf Jetzt ausführen.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofilscan auszuführen:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans.
LOCATION: Die Google Cloud-Region, in der der Der Datenprofilscan wurde erstellt.

Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.

REST

Verwenden Sie APIs Explorer, um Ihren Datenprofilscan auszuführen.

Ergebnisse des Datenprofilscanjobs ansehen

Console

Alle von Ihnen erstellten Datenprofilscans werden auf der Seite Profil angezeigt.

Klicken Sie auf den Namen eines Scans, um die detaillierten Ergebnisse aufzurufen.

Im Abschnitt Übersicht werden die Scanausführungen, der Zeitpunkt jeder Ausführung, die Anzahl der gescannten Tabellendatensätze und den Jobstatus.
Der Bereich Konfiguration des Profilscans enthält Details zum Scan.

gcloud

Führen Sie den folgenden Befehl aus, um die Ergebnisse eines Datenprofilscanjobs anzusehen:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ersetzen Sie die folgenden Variablen:

JOB: Die Job-ID des Datenprofilscanjobs.
LOCATION: Die Google Cloud-Region, in der der Der Datenprofilscan wurde erstellt.
DATASCAN: Der Name des Datenprofils, das in der zu dem Job gehört.
--view=FULL: Geben Sie FULL an, um das Ergebnis des Scanjobs anzusehen.

Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.

REST

Verwenden Sie den APIs Explorer, um die Ergebnisse eines Datenprofilscans anzusehen.

Letzten Job für den Datenprofilscan ansehen

Console

Der Tab Neueste Jobergebnisse, wenn mindestens ein Job erfolgreich vorhanden ist abgeschlossene Ausführung enthält Informationen zum letzten Job. Hier werden die gescannten Tabellenspalten und Statistiken zu den Spalten, die beim Scan gefunden wurden.

gcloud

Führen Sie folgenden Befehl aus, um den letzten erfolgreichen Datenprofilscan anzusehen Befehl:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans, der angesehen werden soll. für den letzten Job.
LOCATION: Die Google Cloud-Region, in der die Daten gespeichert sind. Profilscan wurde erstellt.
--view=FULL: Geben Sie FULL an, um das Ergebnis des Scanjobs anzusehen.

Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.

REST

Verwenden Sie APIs Explorer, um den neuesten Scanjob aufzurufen.

Alle Datenprofilscanjobs ansehen

Dataplex speichert den Datenprofilscanverlauf der letzten 300 Jobs oder für das vergangene Jahr, je nachdem, was zuerst eintritt.

Console

Der Tab Jobverlauf enthält Informationen zu vergangenen Jobs. Es werden alle Jobs, die Anzahl der in jedem Job gescannten Datensätze, der Job Status, Jobausführungszeit und mehr.

Um detaillierte Informationen zu einem Job anzuzeigen, klicken Sie auf einen der Jobs unter Job-ID:

gcloud

Führen Sie den folgenden Befehl aus, um alle Jobs eines Datenprofilscans anzusehen:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Google Cloud-Region, in der die Daten gespeichert sind. Profilscan wurde erstellt.
DATASCAN: Der Name des Datenprofilscans, der angesehen werden soll. alle Jobs enthält.

Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.

REST

Verwenden Sie APIs Explorer, um alle Scanjobs anzusehen.

Wenn Sie beim Erstellen eines Datenprofilscans die Scanergebnisse veröffentlichen auf den Seiten „BigQuery“ und „Data Catalog“ in der Google Cloud Console aktiviert haben, sind die neuesten Scanergebnisse im Datenprofil.

Sie können den Nutzern in Ihrer Organisation Zugriff auf die veröffentlichten Scanergebnissen. So gewähren Sie Zugriff auf die Scanergebnisse:

Rufen Sie in der Google Cloud Console die Seite Profil auf.

Zum Dataplex-Profil
Klicken Sie auf den Datenprofilscan, dessen Ergebnisse Sie teilen möchten.
Wechseln Sie zum Tab Berechtigungen.
Klicken Sie auf Zugriff erlauben.
Fügen Sie im Feld Neue Hauptkonten das Hauptkonto hinzu, dem Sie das Konto zuweisen möchten. Zugriff zu gewähren.
Wählen Sie im Feld Rolle auswählen die Option Dataplex DataScan DataViewer aus.
Klicken Sie auf Speichern.

So entfernen Sie den Zugriff auf die veröffentlichten Scanergebnisse für ein Hauptkonto: Schritte:

Rufen Sie in der Google Cloud Console die Seite Profil auf.

Zum Dataplex-Profil
Klicken Sie auf den Datenprofilscan, dessen Ergebnisse Sie teilen möchten.
Wechseln Sie zum Tab Berechtigungen.
Wählen Sie das Hauptkonto aus, für das Sie den Dataplex DataScan DataViewer entfernen möchten Rolle.
Klicken Sie auf Zugriff entfernen.
Klicken Sie auf Bestätigen.

Datenprofilscan aktualisieren

Console

Rufen Sie in der Google Cloud Console die Seite Profil auf.

Zum Dataplex-Profil
Klicken Sie in der Zeile mit dem Scan, den Sie bearbeiten möchten, auf > Bearbeiten.
Die Werte bearbeiten
Klicken Sie auf Speichern.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofilscan zu aktualisieren:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans, aktualisieren.
LOCATION: Die Google Cloud-Region, in der die Daten gespeichert sind. Profilscan wurde erstellt.
DESCRIPTION: Die neue Beschreibung für die Daten Profilscan.

Informationen zu zu aktualisierenden Spezifikationsfeldern finden Sie in der Referenz zur gcloud CLI.

REST

Verwenden Sie APIs Explorer, um einen Datenprofilscan zu bearbeiten.

Datenprofilscan löschen

Console

Rufen Sie in der Google Cloud Console die Seite Profil auf. Rufen Sie das Dataplex-Profil auf.
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofilscan zu löschen:

gcloud dataplex datascans delete \
DATASCAN --location=LOCATION \
--async

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofilscans, Löschen.
LOCATION: Die Google Cloud-Region, in der die Daten gespeichert sind. Profilscan wurde erstellt.

Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.

REST

Verwenden Sie APIs Explorer, um Ihren Datenprofilscan zu löschen.

Datenprofilscans erstellen und verwenden

Hinweise

Berechtigungen

Datenscanrollen und ‐berechtigungen

Datenprofilscan erstellen

Console

gcloud

REST

Mehrere Datenprofilscans erstellen

Console

gcloud

REST

Tabellenschema exportieren

Tabelleneinrichtung exportieren

Datenprofilscan ausführen

Console

gcloud

REST

Ergebnisse des Datenprofilscanjobs ansehen

Console

gcloud

REST

Letzten Job für den Datenprofilscan ansehen

Console

gcloud

REST

Alle Datenprofilscanjobs ansehen

Console

gcloud

REST

Veröffentlichte Ergebnisse teilen

Datenprofilscan aktualisieren

Console

gcloud

REST

Datenprofilscan löschen

Console

gcloud

REST

Nächste Schritte