Diese Seite wurde von der Cloud Translation API übersetzt.

Datenprofilscans erstellen und verwenden

Auf dieser Seite erfahren Sie, wie Sie mit der Google Cloud Console, der Google Cloud CLI oder der REST API einen Datenprofil-Scan erstellen.

Weitere Informationen zu Dataplex-Datenprofilscans finden Sie unter Datenprofilerstellung.

Hinweise

Aktivieren Sie in der Google Cloud Console die Dataplex API.

API aktivieren

Berechtigungen

Zum Erstellen von BigQuery-Tabellenprofilen benötigen Sie die folgenden Berechtigungen:

Wenn Sie einen Datenprofilscan für eine BigQuery-Tabelle ausführen möchten, benötigen Sie die Berechtigung zum Lesen der BigQuery-Tabelle und zum Erstellen eines BigQuery-Jobs im Projekt, das zum Scannen der Tabelle verwendet wird.

Hinweis :In Dataplex wird kein BigQuery-Job im Projekt erstellt. Sie benötigen diese Berechtigung jedoch, um einen DryRun-Job zu erstellen, um nach Berechtigungen für die Tabelle zu suchen.
Wenn sich die BigQuery-Tabelle und der Datenprofilscan in verschiedenen Projekten befinden, müssen Sie dem Dataplex-Dienstkonto die Leseberechtigung für die entsprechende BigQuery-Tabelle erteilen.

Hinweis: Wenn Sie noch keine Datenqualitäts- oder Datenprofilscans erstellt haben oder im BigQuery-Projekt kein Dataplex-Lake vorhanden ist, erstellen Sie eine Dienst-ID. Führen Sie dazu Folgendes aus: gcloud beta services identity create --service=dataplex.googleapis.com. Dieser Befehl gibt eine Dataplex-Dienst-ID zurück, falls vorhanden.
Wenn die BigQuery-Daten in einem Dataplex-Datensee organisiert sind, benötigen Sie die Dataplex-Rollen roles/dataplex.metadataReader und roles/dataplex.viewer, um einen Datenprofilscan zu erstellen. Dadurch werden die folgenden Berechtigungen gewährt:
- dataplex.lakes.list
- dataplex.lakes.get
- dataplex.zones.list
- dataplex.zones.get
- dataplex.entities.list
- dataplex.entities.get
- dataplex.operations.get
Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex-Dienstkonto entweder die Rolle „Cloud Storage Object Viewer“ (roles/storage.objectViewer) oder die folgenden Berechtigungen für den Bucket zu:
- storage.buckets.get
- storage.objects.get
Wenn Sie die Ergebnisse des Datenprofilscans für die Quelltabellen auf den Seiten „BigQuery“ und „Datenkatalog“ in der Google Cloud Console veröffentlichen möchten, müssen Sie die IAM-Rolle „BigQuery-Datenbearbeiter“ (roles/bigquery.dataEditor) für die Tabelle haben. Alternativ benötigen Sie alle folgenden Berechtigungen:
- bigquery.tables.get
- bigquery.tables.update
- bigquery.tables.updateData
- bigquery.tables.delete
Damit die Scanergebnisse in eine BigQuery-Tabelle exportiert werden können, benötigt Ihr Dataplex-Dienstkonto die Rolle „BigQuery-Datenbearbeiter“ (roles/bigquery.dataEditor). Dadurch werden die folgenden Berechtigungen gewährt:
- bigquery.datasets.get
- bigquery.tables.create
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.tables.update
- bigquery.tables.updateData
Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie dem Dataplex-Dienstkonto Berechtigungen für diese Spalten zu. Der Nutzer, der einen Datenscan erstellt oder aktualisiert, benötigt außerdem Berechtigungen für die Spalten.
Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex-Dienstkonto sichtbar sind. Die Zugriffsberechtigungen des einzelnen Nutzers werden nicht für Richtlinien auf Zeilenebene ausgewertet.

Rollen und Berechtigungen für den Datenscan

Um das Datenprofil zu verwenden, weist ein Projektadministrator entweder eine vordefinierte Rolle mit bereits erteilten Berechtigungen zu oder gewährt einzelne Berechtigungen. Die Rollen sind:

roles/dataplex.dataScanAdmin: Vollständiger Zugriff auf DataScan-Ressourcen.
roles/dataplex.dataScanEditor: Schreibzugriff auf DataScan-Ressourcen.
roles/dataplex.dataScanViewer: Lesezugriff auf DataScan-Ressourcen, ausgenommen die Ergebnisse.
roles/dataplex.dataScanDataViewer: Lesezugriff auf DataScan-Ressourcen, einschließlich der Ergebnisse.

In der folgenden Tabelle sind die Berechtigungen für den Datenscan aufgeführt:

Name der Berechtigung	Ermöglicht Folgendes:
`dataplex.datascans.create`	`DataScan` erstellen
`dataplex.datascans.delete`	`DataScan` löschen
`dataplex.datascans.get`	Details zu `DataScan` ohne Ergebnisse ansehen
`dataplex.datascans.getData`	Details zu `DataScan` einschließlich Ergebnissen ansehen
`dataplex.datascans.list`	`DataScan`s auflisten
`dataplex.datascans.run`	`DataScan` ausführen
`dataplex.datascans.update`	Beschreibung einer `DataScan` aktualisieren
`dataplex.datascans.getIamPolicy`	Aktuelle IAM-Berechtigungen für den Scan ansehen
`dataplex.datascans.setIamPolicy`	IAM-Berechtigungen für den Scan festlegen

Datenprofilscan erstellen

Console

Rufen Sie in der Google Cloud Console die Seite Profil auf.

Dataplex-Profil aufrufen
Klicken Sie auf Datenprofilscan erstellen.
Geben Sie einen Anzeigenamen ein.
Wenn Sie die automatisch generierte Scan-ID ändern möchten, geben Sie eine eigene an. Weitere Informationen finden Sie unter Namenskonvention für Ressourcen.
Optional: Geben Sie eine Beschreibung ein.
Klicken Sie im Feld Tabelle auf Durchsuchen.
Wählen Sie eine Tabelle aus und klicken Sie auf Auswählen.
Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
- Wenn Sie Inkrementelle Daten auswählen, wählen Sie im Feld Zeitstempelspalte eine Spalte vom Typ DATE oder TIMESTAMP aus Ihrer BigQuery-Tabelle aus, die monoton zunimmt und zum Identifizieren neuer Einträge verwendet werden kann. Für Tabellen, die nach einer Spalte des Typs DATE oder TIMESTAMP partitioniert sind, wird empfohlen, die Partitionsspalte als Zeitstempelfeld zu verwenden.
Wenn Sie die Stichprobenerhebung auf den Datenprofil-Scan anwenden möchten, wählen Sie in der Liste Probenumfang einen Prozentsatz für die Stichprobenerhebung aus.
- Wählen Sie einen Prozentsatz zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus.
- Wählen Sie für größere Datensätze einen niedrigeren Prozentsatz für die Stichprobe aus. Wenn Sie beispielsweise für eine Tabelle mit etwa 1 PB einen Wert zwischen 0,1% und 1, 0 % eingeben, werden in Dataplex zwischen 1 und 10 TB Daten gesampled.
- Für ein Ergebnis müssen die Stichprobendaten mindestens 100 Einträge enthalten.
- Bei inkrementellen Datenscans wendet Dataplex die Stichprobenerhebung auf das letzte Increment an.
Wenn Sie nach Zeile filtern möchten, klicken Sie auf Filter und wählen Sie Zeilen filtern aus.
- Geben Sie einen gültigen SQL-Ausdruck ein, der in einer WHERE-Klausel in GoogleSQL-Syntax verwendet werden kann. Beispiel: col1 >= 0.
- Der Filter kann eine Kombination aus SQL-Bedingungen für mehrere Spalten sein. Beispiel: col1 >= 0 AND col2 < 10.
Optional: Klicken Sie auf Filter. Klicken Sie das Kästchen Spalten filtern an.

a. Klicken Sie im Feld Spalten einschließen auf Durchsuchen.
- Geben Sie alle Spalten an, die in den Profilscan einbezogen werden sollen. Wählen Sie die gewünschten Spalten aus, indem Sie die entsprechenden Kästchen anklicken und dann auf Auswählen klicken.
b. Klicken Sie im Feld Spalten ausschließen auf Durchsuchen.
- Geben Sie alle Spalten an, die vom Profilscan ausgeschlossen werden sollen. Wählen Sie die gewünschten Spalten aus, indem Sie die entsprechenden Kästchen anklicken und dann auf Auswählen klicken.
Hinweis :Sie können Spalten einschließen, Spalten ausschließen oder beides verwenden. Wenn Sie beide Felder verwenden, werden in Dataplex zuerst die Spalten basierend auf Ihrer Eingabe im Feld Spalten einschließen ausgewählt und dann die Spalten basierend auf Ihrer Eingabe im Feld Spalten ausschließen ausgeschlossen.
Optional: Sie können die Ergebnisse des Datenprofilscans für die Quelltabelle auf den Seiten „BigQuery“ und „Data Catalog“ in der Google Cloud Console veröffentlichen. Klicken Sie das Kästchen Ergebnisse in BigQuery und der Dataplex-Katalog-UI veröffentlichen an.

Sie können die neuesten Scanergebnisse auf den BigQuery- und Data Catalog-Seiten der Quelltabelle auf dem Tab Datenprofil aufrufen. Wie Sie Nutzern den Zugriff auf die veröffentlichten Scanergebnisse ermöglichen, erfahren Sie unter Veröffentlichte Ergebnisse teilen.

In den folgenden Fällen ist die Veröffentlichungsoption möglicherweise nicht verfügbar:
- Sie haben nicht die erforderlichen Berechtigungen für die Tabelle.
- Für einen anderen Datenqualitätsscan ist das Veröffentlichen von Ergebnissen festgelegt.
Weitere Informationen zu den Berechtigungen, die zum Ansehen der veröffentlichten Ergebnisse erforderlich sind, finden Sie unter Berechtigungen.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Klicken Sie auf Suchen, um ein vorhandenes BigQuery-Dataset auszuwählen, in dem die Ergebnisse des Datenprofilscans gespeichert werden sollen.

Wenn die angegebene Tabelle nicht vorhanden ist, wird sie von Dataplex für Sie erstellt. Wenn Sie eine vorhandene Tabelle verwenden, achten Sie darauf, dass sie mit dem Tabellenschema kompatibel ist, das weiter unten in diesem Abschnitt beschrieben wird.

Hinweis: Sie können dieselbe Ergebnistabelle verwenden, um Ergebnisse aus mehreren Datenprofilscans zu speichern oder zu exportieren.
Optional: Fügen Sie Labels hinzu. Labels sind key:value-Paare, mit denen Sie verwandte Objekte zusammen oder mit anderen Google Cloud Ressourcen gruppieren können.
Wählen Sie unter Zeitplanoptionen eine der folgenden Optionen aus:
- Wiederholen: Der Scanjob für das Datenprofil wird nach einem Zeitplan ausgeführt: täglich, wöchentlich, monatlich oder benutzerdefiniert. Legen Sie fest, wie oft und wann der Scan ausgeführt werden soll. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie das Cron-Format, um den Zeitplan anzugeben.
- On-Demand: Sie können den Datenprofilscan erstellen und jederzeit mit der Aktion „Jetzt ausführen“ ausführen.
Klicken Sie auf Erstellen.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofil-Scan zu erstellen:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY
| --data-source-resource=DATA_SOURCE_RESOURCE

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofil-Scans.
LOCATION: Die Google Cloud Region, in der der Datenprofil-Scan erstellt werden soll.
DATA_SOURCE_ENTITY: Das Dataplex-Element, das die Daten für den Datenprofil-Scan enthält. Beispiel: projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE: Der Name der Ressource, die die Daten für den Datenprofil-Scan enthält. Beispiel: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Erstellen Sie mit dem APIs Explorer einen Datenprofilscan.

Mehrere Datenprofilscans erstellen

Console

Rufen Sie in der Google Cloud Console die Seite Profil auf.

Dataplex-Profil aufrufen
Klicken Sie auf Mehrere Profilscans erstellen.
Geben Sie ein ID-Präfix ein. Dataplex generiert automatisch Scan-IDs anhand des bereitgestellten Präfixes und eindeutiger Suffixe.
Geben Sie eine Beschreibung für alle Datenprofilscans ein.
Klicken Sie im Feld Dataset auf Durchsuchen. Wählen Sie einen Datensatz aus, aus dem Sie Tabellen auswählen möchten. Klicken Sie auf Auswählen.
Wenn das Dataset multiregional ist, wählen Sie eine Region aus, in der die Datenprofil-Scans erstellt werden sollen.
Wählen Sie Gängige Konfigurationsoptionen aus:
1. Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.
  
  Hinweis: Wenn Sie Inkrementell auswählen, können Sie nur Tabellen auswählen, die nach einer Spalte vom Typ DATE oder TIMESTAMP partitioniert sind.
2. Wenn Sie Stichprobenerhebungen auf Ihre Datenprofilscans anwenden möchten, wählen Sie in der Liste Probenumfang einen Prozentsatz für die Stichprobenerhebung aus.
  
  Wählen Sie einen Prozentsatz zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus.
3. Wenn Sie die Ergebnisse aller Scans sehen möchten, wählen Sie Veröffentlichen aus. Sie können die Ergebnisse auf dem Tab Profil in den BigQuery- oder Data Catalog-Tabellendetails aufrufen. Sie benötigen die Berechtigung bigquery.tables.update für die Quelltabellen.
  
  Hinweis: Sie müssen Tabellen auswählen, für die noch keine Scans vorhanden sind, deren Ergebnisse veröffentlicht werden.
4. Wählen Sie unter Zeitplanoptionen eine der folgenden Optionen aus:
  1. Wiederholen: Die Jobs zum Scannen von Datenprofilen werden nach einem Zeitplan ausgeführt. Geben Sie an, wie oft (täglich, wöchentlich, monatlich oder benutzerdefiniert) und zu welcher Uhrzeit der Scan ausgeführt werden soll. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie das Cron-Format, um den Zeitplan anzugeben.
  2. On-Demand: Sie können Jobs für den Datenprofilscan erstellen und jederzeit ausführen, indem Sie auf Ausführen klicken.
Klicken Sie unter Tabellen auswählen auf Durchsuchen. Wählen Sie eine oder mehrere der zu scannenden Tabellen aus. Klicken Sie auf Auswählen.
Wählen Sie Weitere Einstellungen aus:
1. Wenn Sie die Ergebnisse Ihrer Datenprofilscans in einer BigQuery-Tabelle Ihrer Wahl speichern möchten, wählen Sie unter Scanergebnisse in BigQuery-Tabelle exportieren eine Tabelle aus. In Dataplex werden die Ergebnisse für jeden Scanjob automatisch in diese Tabelle kopiert und gespeichert.
  1. Klicken Sie auf Durchsuchen, um ein Dataset auszuwählen.
    
    Hinweis: Das Dataplex-Dienstkonto muss eine Tabelle in diesem Datensatz erstellen und in diese Tabelle schreiben können.
  2. Geben Sie eine BigQuery-Tabelle ein, in der die Ergebnisse gespeichert werden sollen. Dies kann eine vorhandene Tabelle sein, die von anderen Dataplex-Datenprofilscans zum Speichern von Ergebnissen verwendet wird. Wenn keine solche Tabelle mit dem angegebenen Namen vorhanden ist, wird sie von Dataplex erstellt.
2. Fügen Sie Labels hinzu, um den Datenprofil-Scan zu annotieren.
Klicken Sie auf Scan ausführen, um alle Scans zu erstellen und auszuführen. Diese Option ist nur für On-Demand-Scans verfügbar.
Klicken Sie auf Erstellen, um alle Scans zu erstellen.

gcloud

Nicht unterstützt.

REST

Nicht unterstützt.

Tabellenschema exportieren

Wenn Sie die Scanergebnisse für Datenprofile in eine vorhandene BigQuery-Tabelle exportieren möchten, muss diese mit dem folgenden Tabellenschema kompatibel sein:

Spaltenname	Datentyp der Spalte	Name des untergeordneten Felds (falls zutreffend)	Datentyp des untergeordneten Felds	Modus	Beispiel
data_profile_scan	`struct/record`	`resource_name`	`string`	nullable	`//dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan`
		`project_id`	`string`	nullable	`test-project`
		`location`	`string`	nullable	`us-central1`
		`data_scan_id`	`string`	nullable	`test-datascan`
data_source	`struct/record`	`resource_name`	`string`	nullable	Groß-/Kleinschreibung für Entitäten: `//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity` Groß-/Kleinschreibung für Tabellen: `//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table`
		`dataplex_entity_project_id`	`string`	nullable	`test-project`
		`dataplex_entity_project_number`	`integer`	nullable	`123456789012`
		`dataplex_lake_id`	`string`	nullable	(Nur gültig, wenn „source“ „entity“ ist) `test-lake`
		`dataplex_zone_id`	`string`	nullable	(Nur gültig, wenn „source“ „entity“ ist) `test-zone`
		`dataplex_entity_id`	`string`	nullable	(Nur gültig, wenn „source“ „entity“ ist) `test-entity`
		`table_project_id`	`string`	nullable	`dataplex-table`
		`table_project_number`	`int64`	nullable	`345678901234`
		`dataset_id`	`string`	nullable	(Nur gültig, wenn „source“ eine Tabelle ist) `test-dataset`
		`table_id`	`string`	nullable	(Nur gültig, wenn „source“ eine Tabelle ist) `test-table`
data_profile_job_id	`string`			nullable	`caeba234-cfde-4fca-9e5b-fe02a9812e38`
data_profile_job_configuration	`json`	`trigger`	`string`	nullable	`ondemand`/`schedule`
		`incremental`	`boolean`	nullable	`true`/`false`
		`sampling_percent`	`float`	nullable	(0–100) `20.0` (bedeutet 20%)
		`row_filter`	`string`	nullable	`col1 >= 0 AND col2 < 10`
		`column_filter`	`json`	nullable	`{"include_fields":["col1","col2"], "exclude_fields":["col3"]}`
job_labels	`json`			nullable	`{"key1":value1}`
job_start_time	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
job_end_time	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
job_rows_scanned	`integer`			nullable	`7500`
column_name	`string`			nullable	`column-1`
column_type	`string`			nullable	`string`
column_mode	`string`			nullable	`repeated`
percent_null	`float`			nullable	(0,0–100,0) `20.0` (bedeutet 20%)
percent_unique	`float`			nullable	(0,0–100,0) `92.5`
min_string_length	`integer`			nullable	(Nur gültig, wenn der Spaltentyp „String“ ist) `10`
max_string_length	`integer`			nullable	(Nur gültig, wenn der Spaltentyp „String“ ist) `4`
average_string_length	`float`			nullable	(Nur gültig, wenn der Spaltentyp „String“ ist) `7.2`
min_value	`float`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
max_value	`float`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
average_value	`float`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
standard_deviation	`float`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
quartile_lower	`integer`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
quartile_median	`integer`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
quartile_upper	`integer`			nullable	(Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl)
top_n	`struct/record - repeated`	`value`	`string`	nullable	`"4009"`
		`count`	`integer`	nullable	`20`
		`percent`	`float`	nullable	`10` (entspricht 10%)

Exporttabelle einrichten

Beachten Sie beim Exportieren in BigQueryExport-Tabellen die folgenden Richtlinien:

Verwenden Sie für das Feld resultsTable das Format: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
Verwenden Sie eine BigQuery-Standardtabelle.
Wenn die Tabelle beim Erstellen oder Aktualisieren des Scans nicht vorhanden ist, wird sie von Dataplex für Sie erstellt.
Standardmäßig wird die Tabelle täglich nach der Spalte job_start_time partitioniert.
Wenn die Tabelle in anderen Konfigurationen partitioniert werden soll oder Sie die Partitionierung nicht möchten, erstellen Sie die Tabelle mit dem erforderlichen Schema und den erforderlichen Konfigurationen neu und geben Sie die vorab erstellte Tabelle als Ergebnistabelle an.
Die Ergebnistabelle muss sich am selben Speicherort wie die Quelltabelle befinden.
Wenn VPC-SC für das Projekt konfiguriert ist, muss sich die Ergebnistabelle im selben VPC-SC-Perimeter wie die Quelltabelle befinden.
Wenn die Tabelle während der Ausführung des Scans geändert wird, wird der aktuelle Job in die vorherige Ergebnistabelle exportiert und die Tabellenänderung wird erst mit dem nächsten Scanjob wirksam.
Ändern Sie das Tabellenschema nicht. Wenn Sie benutzerdefinierte Spalten benötigen, erstellen Sie eine Ansicht auf der Tabelle.
Legen Sie ein Ablaufdatum für die Partition fest, um die Kosten zu senken. Weitere Informationen finden Sie unter Partitionsablauf festlegen.

Datenprofilscan ausführen

Console

Rufen Sie in der Google Cloud Console die Seite Dataplex-Profil auf. Profil aufrufen
Klicken Sie auf den Datenprofilscan, den Sie ausführen möchten.
Klicken Sie auf Jetzt ausführen.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofil-Scan auszuführen:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofil-Scans.
LOCATION: Die Google Cloud Region, in der der Datenprofil-Scan erstellt wurde.

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Verwenden Sie den APIs Explorer, um den Datenprofil-Scan auszuführen.

Ergebnisse des Datenprofilscans ansehen

Console

Alle von Ihnen erstellten Datenprofilscans werden auf der Seite Profil angezeigt.

Klicken Sie auf den Namen des Scans, um die detaillierten Ergebnisse aufzurufen.

Im Bereich Übersicht werden die Scanläufe, die Uhrzeit der einzelnen Läufe, die Anzahl der gescannten Tabelleneinträge und der Jobstatus angezeigt.
Der Bereich Konfiguration des Profilscans enthält Details zum Scan.

gcloud

Führen Sie den folgenden Befehl aus, um die Ergebnisse eines Datenprofil-Scanjobs aufzurufen:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ersetzen Sie die folgenden Variablen:

JOB: Die Job-ID des Jobs zum Scannen des Datenprofils.
LOCATION: Die Google Cloud Region, in der der Datenprofil-Scan erstellt wurde.
DATASCAN: Der Name des Datenprofils, zu dem der Job gehört.
--view=FULL: Geben Sie FULL an, um das Ergebnis des Scanjobs zu sehen.

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Im APIs Explorer können Sie sich die Ergebnisse eines Datenprofilscans ansehen.

Letzten Datenprofilscan aufrufen

Console

Auf dem Tab Letzte Jobergebnisse finden Sie Informationen zum letzten Job, wenn mindestens eine Ausführung erfolgreich war. Hier sind die Spalten der gescannten Tabelle und Statistiken zu den im Scan gefundenen Spalten aufgeführt.

gcloud

Führen Sie den folgenden Befehl aus, um den letzten erfolgreichen Scan des Datenprofils aufzurufen:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofils, für das der letzte Job angezeigt werden soll.
LOCATION: Die Region Google Cloud , in der der Datenprofil-Scan erstellt wurde.
--view=FULL: Geben Sie FULL an, um das Ergebnis des Scanjobs zu sehen.

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Im APIs Explorer können Sie sich den letzten Scanjob ansehen.

Alle Jobs für den Datenprofilscan ansehen

In Dataplex wird der Scanverlauf für Datenprofile der letzten 300 Jobs oder des letzten Jahres gespeichert, je nachdem, was zuerst eintritt.

Console

Auf dem Tab Jobverlauf finden Sie Informationen zu früheren Jobs. Dort werden unter anderem alle Jobs, die Anzahl der in jedem Job gescannten Datensätze, der Jobstatus und die Ausführungszeit des Jobs aufgeführt.

Klicken Sie auf einen der Jobs unter Job-ID, um die Details aufzurufen.

gcloud

Führen Sie den folgenden Befehl aus, um alle Jobs eines Datenprofil-Scans aufzurufen:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Ersetzen Sie die folgenden Variablen:

LOCATION: Die Region Google Cloud , in der der Datenprofil-Scan erstellt wurde.
DATASCAN: Der Name des Datenprofils, für das alle Jobs angezeigt werden sollen.

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Im APIs Explorer können Sie alle Scanjobs ansehen.

Wenn Sie beim Erstellen eines Datenprofil-Scans festgelegt haben, dass die Scanergebnisse auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console veröffentlicht werden sollen, sind die neuesten Scanergebnisse auf diesen Seiten auf dem Tab Datenprofil verfügbar.

Sie können den Nutzern in Ihrer Organisation den Zugriff auf die veröffentlichten Scanergebnisse ermöglichen. So gewähren Sie Zugriff auf die Scanergebnisse:

Rufen Sie in der Google Cloud Console die Seite Profil auf.

Dataplex-Profil aufrufen
Klicken Sie auf den Datenprofilscan, dessen Ergebnisse Sie freigeben möchten.
Wechseln Sie zum Tab Berechtigungen.
Klicken Sie auf Zugriff erlauben.
Fügen Sie im Feld Neue Hauptkonten das Hauptkonto hinzu, dem Sie Zugriff gewähren möchten.
Wählen Sie im Feld Rolle auswählen die Option Dataplex DataScan DataViewer aus.
Klicken Sie auf Speichern.

So entfernen Sie den Zugriff auf die veröffentlichten Scanergebnisse für ein Hauptkonto:

Rufen Sie in der Google Cloud Console die Seite Profil auf.

Dataplex-Profil aufrufen
Klicken Sie auf den Datenprofilscan, dessen Ergebnisse Sie freigeben möchten.
Wechseln Sie zum Tab Berechtigungen.
Wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex DataScan DataViewer entfernen möchten.
Klicken Sie auf Zugriff entfernen.
Klicken Sie auf Bestätigen.

Datenprofilscan aktualisieren

Console

Rufen Sie in der Google Cloud Console die Seite Profil auf.

Dataplex-Profil aufrufen
Klicken Sie in der Zeile mit dem Scan, den Sie bearbeiten möchten, auf > Bearbeiten.
Bearbeiten Sie die Werte.
Klicken Sie auf Speichern.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofil-Scan zu aktualisieren:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofil-Scans, der aktualisiert werden soll.
LOCATION: Die Region Google Cloud , in der der Datenprofil-Scan erstellt wurde.
DESCRIPTION: Die neue Beschreibung für den Datenprofil-Scan.

Informationen zu den zu aktualisierenden Spezifikationsfeldern finden Sie in der Referenz zur gcloud CLI.

REST

Bearbeiten Sie einen Datenprofilscan mit dem APIs Explorer.

Datenprofilscan löschen

Console

Rufen Sie in der Google Cloud Console die Seite Profil auf. Rufen Sie das Dataplex-Profil auf.
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofil-Scan zu löschen:

gcloud dataplex datascans delete \
DATASCAN --location=LOCATION \
--async

Ersetzen Sie die folgenden Variablen:

DATASCAN: Der Name des Datenprofil-Scans, der gelöscht werden soll.
LOCATION: Die Region Google Cloud , in der der Datenprofil-Scan erstellt wurde.

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Löschen Sie den Datenprofilscan mit dem APIs Explorer.

Datenprofilscans erstellen und verwenden

Hinweise

Berechtigungen

Rollen und Berechtigungen für den Datenscan

Datenprofilscan erstellen

Console

gcloud

REST

Mehrere Datenprofilscans erstellen

Console

gcloud

REST

Tabellenschema exportieren

Exporttabelle einrichten

Datenprofilscan ausführen

Console

gcloud

REST

Ergebnisse des Datenprofilscans ansehen

Console

gcloud

REST

Letzten Datenprofilscan aufrufen

Console

gcloud

REST

Alle Jobs für den Datenprofilscan ansehen

Console

gcloud

REST

Veröffentlichte Ergebnisse teilen

Datenprofilscan aktualisieren

Console

gcloud

REST

Datenprofilscan löschen

Console

gcloud

REST

Nächste Schritte