Auf dieser Seite wird beschrieben, wie Sie einen Datenprofilscan mit der Google Cloud Console, der Google Cloud CLI oder der REST API erstellen.
Weitere Informationen zu Dataplex-Datenprofilscans finden Sie unter Datenprofilerstellung.
Hinweise
Aktivieren Sie in der Google Cloud Console die Dataplex API.
Berechtigungen
Um ein Profil für BigQuery-Tabellen zu erstellen, benötigen Sie die folgenden Berechtigungen:
Zum Ausführen eines Datenprofilscans in einer BigQuery-Tabelle benötigen Sie die Berechtigung zum Lesen der BigQuery-Tabelle und die Berechtigung zum Erstellen eines BigQuery-Jobs in dem Projekt, das zum Scannen der Tabelle verwendet wird.
Wenn sich die BigQuery-Tabelle und der Datenprofilscan in verschiedenen Projekten befinden, müssen Sie dem Dataplex-Dienstkonto Leseberechtigung für die entsprechende BigQuery-Tabelle erteilen.
Wenn die BigQuery-Daten in einem Dataplex-See organisiert sind, benötigen Sie zum Erstellen eines Datenprofilscans die Dataplex-Rollen
roles/dataplex.metadataReader
undroles/dataplex.viewer
. Hierdurch werden die folgenden Berechtigungen gewährt:dataplex.lakes.list
dataplex.lakes.get
dataplex.zones.list
dataplex.zones.get
dataplex.entities.list
dataplex.entities.get
dataplex.operations.get
Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex-Dienstkonto entweder die Rolle „Cloud Storage-Objektbetrachter“ (
roles/storage.objectViewer
) oder die folgenden Berechtigungen für den Bucket zu:storage.buckets.get
storage.objects.get
Wenn Sie die Datenprofilscanergebnisse auf der BigQuery- und der Data Catalog-Seite in der Google Cloud Console für die Quelltabellen veröffentlichen möchten, müssen Sie entweder die IAM-Rolle „BigQuery-Datenbearbeiter“ (
roles/bigquery.dataEditor
) oder die Berechtigungbigquery.tables.update
für die Tabelle haben.Zum Exportieren der Scanergebnisse in eine BigQuery-Tabelle benötigt Ihr Dataplex-Dienstkonto die Rolle „BigQuery-Datenbearbeiter“ (
roles/bigquery.dataEditor
). Hierdurch werden die folgenden Berechtigungen gewährt:bigquery.datasets.get
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.update
bigquery.tables.updateData
Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie den Dataplex-Dienstkontoberechtigungen für diese Spalten zu. Der Nutzer, der einen Datenscan erstellt oder aktualisiert, benötigt außerdem Berechtigungen für die Spalten.
Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex-Dienstkonto sichtbar sind. Beachten Sie, dass die Zugriffsberechtigungen des Nutzers nicht für Richtlinien auf Zeilenebene ausgewertet werden.
Rollen und Berechtigungen für den Datenscan
Zum Verwenden der Datenprofilerstellung weist ein Projektadministrator entweder eine vordefinierte Rolle mit bereits gewährten Berechtigungen zu oder gewährt einzelne Berechtigungen. Die Rollen sind:
roles/dataplex.dataScanAdmin
: Vollständiger Zugriff aufDataScan
-Ressourcen.roles/dataplex.dataScanEditor
: Schreibzugriff aufDataScan
Ressourcen.roles/dataplex.dataScanViewer
: Lesezugriff aufDataScan
Ressourcen, mit Ausnahme der Ergebnisse.roles/dataplex.dataScanDataViewer
: Lesezugriff aufDataScan
-Ressourcen, einschließlich der Ergebnisse.
In der folgenden Tabelle sind die Berechtigungen für den Datenscan aufgeführt:
Name der Berechtigung | Gewährt folgende Berechtigungen: |
---|---|
dataplex.datascans.create |
DataScan erstellen |
dataplex.datascans.delete |
DataScan löschen |
dataplex.datascans.get |
Details zu DataScan ohne Ergebnisse ansehen |
dataplex.datascans.getData |
Details zu DataScan , einschließlich Ergebnissen, ansehen |
dataplex.datascans.list |
DataScan s auflisten |
dataplex.datascans.run |
DataScan ausführen |
dataplex.datascans.update |
Die Beschreibung eines DataScan aktualisieren |
dataplex.datascans.getIamPolicy |
Aktuelle IAM-Berechtigungen für den Scan ansehen |
dataplex.datascans.setIamPolicy |
IAM-Berechtigungen für den Scan festlegen |
Datenprofilscan erstellen
Console
Rufen Sie in der Google Cloud Console die Seite Profil auf.
Klicken Sie auf Scan für Datenprofil erstellen.
Geben Sie einen Anzeigenamen ein.
Wenn Sie die automatisch generierte Scan-ID ändern möchten, geben Sie Ihre eigene an. Siehe Konvention für Ressourcennamen.
Optional: Geben Sie eine Beschreibung ein.
Klicken Sie im Feld Tabelle auf Durchsuchen.
Wählen Sie eine Tabelle aus und klicken Sie auf Auswählen.
Wählen Sie im Feld Umfang die Option Inkrementelle oder Gesamte Daten aus.
- Wenn Sie Inkrementelle Daten auswählen, wählen Sie im Feld Zeitstempelspalte eine Spalte vom Typ
DATE
oderTIMESTAMP
aus Ihrer BigQuery-Tabelle aus, die monoton zunimmt und zum Identifizieren neuer Datensätze verwendet werden kann. Für Tabellen, die nach einer Spalte vom TypDATE
oderTIMESTAMP
partitioniert sind, empfehlen wir, die Partitionsspalte als Zeitstempelfeld zu verwenden.
- Wenn Sie Inkrementelle Daten auswählen, wählen Sie im Feld Zeitstempelspalte eine Spalte vom Typ
Wenn Sie auf Ihr Datenprofilscan Stichproben anwenden möchten, wählen Sie in der Liste Stichprobengröße einen Stichprobenprozentsatz aus.
- Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus.
- Wählen Sie für größere Datasets einen niedrigeren Prozentsatz für die Stichprobenerhebung aus. Wenn Sie beispielsweise in einer ~1-PB-Tabelle einen Wert zwischen 0,1% und 1, 0 % eingeben, stützt Dataplex zwischen 1 und 10 TB Daten.
- Sie benötigen mindestens 100 Einträge in den Stichprobendaten, um ein Ergebnis zurückzugeben.
- Bei inkrementellen Datenscans wendet Dataplex Stichproben auf den letzten Inkrement an.
Klicken Sie dazu auf Filter und wählen Sie Zeilen filtern aus.
Geben Sie einen gültigen SQL-Ausdruck ein, der in einer
WHERE
-Klausel in der Standard-SQL-Syntax von BigQuery verwendet werden kann. Beispiel:col1 >= 0
.Der Filter kann eine Kombination aus SQL-Bedingungen für mehrere Spalten sein. Beispiel:
col1 >= 0 AND col2 < 10
.
Optional: Klicken Sie auf Filter. Klicken Sie das Kästchen neben Spalten filtern an.
a. Klicken Sie im Feld Spalten einschließen auf Durchsuchen.
- Geben Sie alle Spalten an, die beim Profilscan einbezogen werden sollen. Wählen Sie die gewünschten Spalten aus, indem Sie die entsprechenden Kästchen anklicken und dann auf Auswählen klicken.
b. Klicken Sie im Feld Spalten ausschließen auf Durchsuchen.
- Geben Sie alle Spalten an, die vom Profilscan ausgeschlossen werden sollen. Wählen Sie die gewünschten Spalten aus, indem Sie die entsprechenden Kästchen anklicken und dann auf Auswählen klicken.
Optional: Veröffentlichen Sie die Ergebnisse des Datenprofilscans auf der BigQuery- und der Data Catalog-Seite in der Google Cloud Console für die Quelltabelle. Klicken Sie auf das Kästchen Ergebnisse in der UI von BigQuery und Dataplex-Katalog veröffentlichen.
Die neuesten Scanergebnisse finden Sie auf den BigQuery- und Data Catalog-Seiten für die Quelltabelle auf dem Tab Datenprofil. Wie Sie Nutzern den Zugriff auf die veröffentlichten Scanergebnisse ermöglichen, erfahren Sie unter Veröffentlichte Ergebnisse freigeben.
Die Veröffentlichungsoption ist in den folgenden Fällen möglicherweise nicht verfügbar:
- Sie haben nicht die erforderlichen Berechtigungen für die Tabelle.
- Ein anderer Datenqualitätsscan ist festgelegt, um Ergebnisse zu veröffentlichen.
Weitere Informationen zu den Berechtigungen, die zum Ansehen der veröffentlichten Ergebnisse erforderlich sind, finden Sie unter Berechtigungen.
Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Klicken Sie auf Durchsuchen, um ein vorhandenes BigQuery-Dataset zum Speichern der Scanergebnisse des Datenprofils auszuwählen.
Wenn die angegebene Tabelle nicht vorhanden ist, erstellt Dataplex sie für Sie. Wenn Sie eine vorhandene Tabelle verwenden, achten Sie darauf, dass sie mit dem Tabellenschema kompatibel ist, das weiter unten in diesem Abschnitt beschrieben wird.
Optional: Fügen Sie Labels hinzu. Labels sind
key:value
-Paare, mit denen Sie zusammengehörige Objekte zusammen mit anderen Google Cloud-Ressourcen gruppieren können.Wählen Sie unter Zeitplanoptionen eine der folgenden Optionen aus:
Wiederholen: Führen Sie den Scanjob für Ihr Datenprofil nach einem Zeitplan aus: täglich, wöchentlich, monatlich oder benutzerdefiniert. Legen Sie fest, wie oft und zu welcher Zeit der Scan ausgeführt werden soll. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie das Cron-Format, um den Zeitplan anzugeben.
On-Demand: Erstellen Sie den Scan Ihres Datenprofils und führen Sie ihn jederzeit mit der Aktion „Jetzt ausführen“ aus.
Klicken Sie auf Erstellen.
gcloud
Führen Sie den folgenden Befehl aus, um einen Datenprofilscan zu erstellen:
gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-entity=DATA_SOURCE_ENTITY | --data-source-resource=DATA_SOURCE_RESOURCE
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des Datenprofilscans.LOCATION
: Die Google Cloud-Region, in der der Datenprofilscan erstellt werden soll.DATA_SOURCE_ENTITY
: Die Dataplex-Entität, die die Daten für den Datenprofilscan enthält. Beispiel:projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE
: Der Name der Ressource, die die Daten für den Datenprofilscan enthält. Beispiel://bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Mit dem APIs Explorer können Sie einen Datenprofilscan erstellen.
Mehrere Datenprofilscans erstellen
Console
Rufen Sie in der Google Cloud Console die Seite Profil auf.
Klicken Sie auf Mehrere Profilscans erstellen.
Geben Sie ein ID-Präfix ein. Dataplex generiert automatisch Scan-IDs mit dem angegebenen Präfix und eindeutigen Suffixen.
Geben Sie für alle Datenprofilscans eine Beschreibung ein.
Klicken Sie im Feld Dataset auf Durchsuchen. Wählen Sie ein Dataset aus, aus dem Tabellen ausgewählt werden sollen. Klicken Sie auf Auswählen.
Wenn das Dataset multiregional ist, wählen Sie eine Region aus, in der die Datenprofilscans erstellt werden sollen.
Wählen Sie Allgemeine Konfigurationsoptionen aus:
Wählen Sie im Feld Umfang die Option Inkrementelle oder Gesamte Daten aus.
Wenn Sie auf Ihre Datenprofilscans Stichproben anwenden möchten, wählen Sie in der Liste Stichprobengröße einen Stichprobenanteil aus.
Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus.
Wählen Sie Veröffentlichung aus, um die Ergebnisse aller Scans anzuzeigen. Sie können die Ergebnisse auf dem Tab Profil der BigQuery- oder Data Catalog-Tabellendetails ansehen. Sie benötigen die
bigquery.tables.update
-Berechtigungen für die Quelltabellen.Wählen Sie unter Zeitplanoptionen eine der folgenden Optionen aus:
Wiederholen: Führen Sie die Scanjobs für Ihr Datenprofil nach einem Zeitplan aus. Geben Sie an, wie oft der Scan ausgeführt werden soll (täglich, wöchentlich, monatlich oder benutzerdefiniert) und zu welcher Zeit. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie das cron-Format, um den Zeitplan anzugeben.
On-Demand: Erstellen Sie Ihre Scanjobs für Datenprofile und führen Sie sie jederzeit aus, indem Sie auf Ausführen klicken.
Klicken Sie in der Option Tabellen auswählen auf Durchsuchen. Wählen Sie eine oder mehrere Tabellen aus, die gescannt werden sollen. Klicken Sie auf Auswählen.
Wählen Sie Weitere Einstellungen aus:
Wählen Sie unter Scanergebnisse in BigQuery-Tabelle exportieren eine Tabelle aus, um die Ergebnisse Ihrer Datenprofilscans in einer BigQuery-Tabelle Ihrer Wahl zu speichern. Dataplex kopiert die Ergebnisse für jeden Scanjob automatisch und speichert sie in dieser Tabelle.
Klicken Sie auf Durchsuchen, um ein Dataset auszuwählen.
Geben Sie eine BigQuery-Tabelle ein, in der die Ergebnisse gespeichert werden sollen. Dies kann eine vorhandene Tabelle sein, die von anderen Dataplex-Datenprofilscans verwendet wird, um Ergebnisse zu speichern. Wenn es keine solche Tabelle mit dem angegebenen Namen gibt, erstellt Dataplex die Tabelle.
Fügen Sie Labels hinzu, um Ihren Datenprofilscan zu annotieren.
Klicken Sie auf Scan ausführen, um alle Scans zu erstellen und auszuführen. Diese Option ist nur für On-Demand-Scans verfügbar.
Klicken Sie auf Erstellen, um alle Scans zu erstellen.
gcloud
Nicht unterstützt.
REST
Nicht unterstützt.
Tabellenschema exportieren
Wenn Sie die Ergebnisse des Datenprofilscans in eine vorhandene BigQuery-Tabelle exportieren möchten, müssen Sie dafür sorgen, dass sie mit dem folgenden Tabellenschema kompatibel ist:
Spaltenname | Spaltendatentyp | Name des untergeordneten Feldes (falls zutreffend) |
Datentyp des untergeordneten Feldes | Modus | Beispiel |
---|---|---|---|---|---|
Datenprofilscan | struct/record |
resource_name |
string |
Nullwerte zulässig | //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan |
project_id |
string |
Nullwerte zulässig | test-project |
||
location |
string |
Nullwerte zulässig | us-central1 |
||
data_scan_id |
string |
Nullwerte zulässig | test-datascan |
||
Datenquelle | struct/record |
resource_name |
string |
Nullwerte zulässig | Entitätsfall://dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity
Tabellenfall: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
|
dataplex_entity_project_id |
string |
Nullwerte zulässig | test-project |
||
dataplex_entity_project_number |
integer |
Nullwerte zulässig | 123456789012 |
||
dataplex_lake_id |
string |
Nullwerte zulässig | (Nur gültig, wenn die Quelle eine Entität ist)test-lake
|
||
dataplex_zone_id |
string |
Nullwerte zulässig | (Nur gültig, wenn die Quelle eine Entität ist)test-zone |
||
dataplex_entity_id |
string |
Nullwerte zulässig | (Nur gültig, wenn die Quelle eine Entität ist)test-entity |
||
table_project_id |
string |
Nullwerte zulässig | dataplex-table |
||
table_project_number |
int64 |
Nullwerte zulässig | 345678901234 |
||
dataset_id |
string |
Nullwerte zulässig | (Nur gültig, wenn die Quelle eine Tabelle ist)test-dataset |
||
table_id |
string |
Nullwerte zulässig | (Nur gültig, wenn die Quelle eine Tabelle ist)test-table |
||
Datenprofil-ID | string |
Nullwerte zulässig | caeba234-cfde-4fca-9e5b-fe02a9812e38 |
||
Datenprofilkonfiguration | json |
trigger |
string |
Nullwerte zulässig | ondemand /schedule |
incremental |
boolean |
Nullwerte zulässig | true /false |
||
sampling_percent |
float |
Nullwerte zulässig | (0–100)20.0 (= 20%) |
||
row_filter |
string |
Nullwerte zulässig | col1 >= 0 AND col2 < 10 |
||
column_filter |
json |
Nullwerte zulässig | {"include_fields":["col1","col2"], "exclude_fields":["col3"]} |
||
Joblabels | json |
Nullwerte zulässig | {"key1":value1} |
||
Startzeit_Job | timestamp |
Nullwerte zulässig | 2023-01-01 00:00:00 UTC |
||
Jobende | timestamp |
Nullwerte zulässig | 2023-01-01 00:00:00 UTC |
||
Zeilen_gescannt | integer |
Nullwerte zulässig | 7500 |
||
Spaltenname | string |
Nullwerte zulässig | column-1 |
||
Spaltentyp | string |
Nullwerte zulässig | string |
||
Spaltenmodus | string |
Nullwerte zulässig | repeated |
||
Prozent_null | float |
Nullwerte zulässig | (0,0–100,0)20.0 (= 20%) |
||
Prozentsatz_eindeutige Werte | float |
Nullwerte zulässig | (0,0–100,0)92.5 |
||
minimale_Stringlänge | integer |
Nullwerte zulässig | (Nur gültig, wenn der Spaltentyp „string“ ist)10 |
||
Max. Stringlänge | integer |
Nullwerte zulässig | (Nur gültig, wenn der Spaltentyp „string“ ist)4 |
||
Durchschnittliche_Stringlänge | float |
Nullwerte zulässig | (Nur gültig, wenn der Spaltentyp „string“ ist)7.2 |
||
min_value | float |
Nullwerte zulässig | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
max_value | float |
Nullwerte zulässig | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
Durchschnittswert | float |
Nullwerte zulässig | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
Standardabweichung | float |
Nullwerte zulässig | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
Quartil_niedriger | integer |
Nullwerte zulässig | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
Quartil (Medianwert) | integer |
Nullwerte zulässig | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
Quartil (Oberteil) | integer |
Nullwerte zulässig | (Nur gültig, wenn der Spaltentyp numerisch ist – Ganzzahl/Gleitkommazahl) | ||
Top-N | struct/record - repeated |
value |
string |
Nullwerte zulässig | "4009" |
count |
integer |
Nullwerte zulässig | 20 |
||
percent |
float |
Nullwerte zulässig | 10 (gibt 10%) an |
Tabelleneinrichtung exportieren
Beachten Sie beim Exportieren in BigQueryExport-Tabellen die folgenden Richtlinien:
Console
Verwenden Sie für das Feld
resultsTable
das Format//bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}
.Verwenden Sie eine BigQuery-Standardtabelle.
Wenn die Tabelle beim Erstellen oder Aktualisieren des Scans nicht vorhanden ist, erstellt Dataplex die Tabelle für Sie.
Standardmäßig wird die Tabelle nach der Spalte
job_start_time
partitioniert.Wenn Sie möchten, dass die Tabelle in anderen Konfigurationen partitioniert wird oder die Partition nicht erstellt werden soll, erstellen Sie die Tabelle mit dem erforderlichen Schema und den erforderlichen Konfigurationen neu und stellen Sie die vorab erstellte Tabelle als Ergebnistabelle bereit.
Achten Sie darauf, dass sich die Ergebnistabelle am selben Speicherort wie die Quelltabelle befindet.
Wenn in dem Projekt VPC-SC konfiguriert ist, muss sich die Ergebnistabelle im selben VPC-SC-Perimeter wie die Quelltabelle befinden.
Wenn die Tabelle während der Scanausführungsphase geändert wird, wird der aktuell ausgeführte Job in die vorherige Ergebnistabelle exportiert und die Tabellenänderung wird ab dem nächsten Scanjob wirksam.
Ändern Sie nicht das Tabellenschema. Wenn Sie benutzerdefinierte Spalten benötigen, erstellen Sie eine Ansicht in der Tabelle.
Legen Sie je nach Anwendungsfall eine Ablaufzeit fest, um die Kosten zu senken. Weitere Informationen finden Sie unter Ablaufzeit der Partition festlegen.
gcloud
REST
Datenprofilscan ausführen
Console
- Rufen Sie in der Google Cloud Console die Dataplex-Seite Profil auf. Profil aufrufen
- Klicken Sie zum Ausführen auf das Datenprofilscan.
- Klicken Sie auf Jetzt ausführen.
gcloud
Führen Sie den folgenden Befehl aus, um einen Datenprofilscan auszuführen:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des Datenprofilscans.LOCATION
: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Verwenden Sie den APIs Explorer, um den Datenprofilscan auszuführen.
Ergebnisse des Datenprofilscanjobs ansehen
Console
Alle von Ihnen erstellten Datenprofilscans werden auf der Seite Profil angezeigt.
Klicken Sie auf den Namen des Scans, um die detaillierten Ergebnisse eines Scans aufzurufen.
Im Bereich Übersicht werden die Scanausführungen, die Zeit jeder Ausführung, die Anzahl der gescannten Tabelleneinträge und der Jobstatus angezeigt.
Der Bereich Konfiguration des Profilscans enthält Details zum Scan.
gcloud
Führen Sie den folgenden Befehl aus, um die Ergebnisse eines Datenprofilscanjobs anzusehen:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
Ersetzen Sie die folgenden Variablen:
JOB
: Die Job-ID des Scanjobs für das Datenprofil.LOCATION
: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.DATASCAN
: Der Name des Datenprofilscans, zu dem der Job gehört.--view=FULL
: Geben SieFULL
an, um das Ergebnis des Scanjobs zu sehen.
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Mit dem APIs Explorer können Sie die Ergebnisse eines Datenprofilscans ansehen.
Letzten Datenprofilscanjob ansehen
Console
Auf dem Tab Letzte Jobergebnisse finden Sie Informationen zum letzten Job, sofern mindestens eine Ausführung erfolgreich ausgeführt wurde. Die Spalten der gescannten Tabelle und Statistiken zu den im Scan gefundenen Spalten werden aufgeführt.
gcloud
Führen Sie den folgenden Befehl aus, um den letzten erfolgreichen Datenprofilscan anzusehen:
gcloud dataplex datascans describe DATASCAN \ --location=LOCATION \ --view=FULL
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des Datenprofilscans, für den der letzte Job angezeigt wird.LOCATION
: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.--view=FULL
: Geben SieFULL
an, um das Ergebnis des Scanjobs zu sehen.
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Verwenden Sie den APIs Explorer, um den neuesten Scanjob anzusehen.
Alle Scanjobs für Datenprofile ansehen
Dataplex speichert den Scanverlauf des Datenprofils der letzten 300 Jobs oder für das letzte Jahr, je nachdem, was zuerst eintritt.
Console
Der Tab Jobverlauf enthält Informationen zu vergangenen Jobs. Darin werden alle Jobs, die Anzahl der in jedem Job gescannten Datensätze, der Jobstatus, die Ausführungszeit des Jobs usw. aufgelistet.
Klicken Sie auf einen der Jobs unter Job-ID, um die detaillierten Informationen zu einem Job aufzurufen.
gcloud
Führen Sie den folgenden Befehl aus, um alle Jobs eines Datenprofilscans anzusehen:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN
Ersetzen Sie die folgenden Variablen:
LOCATION
: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.DATASCAN
: Der Name des Datenprofilscans, in dem alle Jobs angezeigt werden.
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Verwenden Sie den APIs Explorer, um alle Scanjobs anzusehen.
Veröffentlichte Ergebnisse freigeben
Wenn Sie beim Erstellen eines Datenprofilscans die Ergebnisse auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console veröffentlichen, sind die neuesten Scanergebnisse auf dem Tab Datenprofil dieser Seiten verfügbar.
Sie können den Nutzern in Ihrer Organisation den Zugriff auf die veröffentlichten Scanergebnisse erlauben. So gewähren Sie Zugriff auf die Scanergebnisse:
Rufen Sie in der Google Cloud Console die Seite Profil auf.
Klicken Sie auf den Datenprofilscan, für den Sie die Ergebnisse freigeben möchten.
Wechseln Sie zum Tab Berechtigungen.
Klicken Sie auf Zugriff erlauben.
Fügen Sie im Feld Neue Hauptkonten das Hauptkonto hinzu, auf das Sie Zugriff gewähren möchten.
Wählen Sie im Feld Rolle auswählen die Option Dataplex DataScan DataViewer aus.
Klicken Sie auf Speichern.
So entfernen Sie den Zugriff auf die veröffentlichten Scanergebnisse für ein Hauptkonto:
Rufen Sie in der Google Cloud Console die Seite Profil auf.
Klicken Sie auf den Datenprofilscan, für den Sie die Ergebnisse freigeben möchten.
Wechseln Sie zum Tab Berechtigungen.
Wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex DataScan DataViewer entfernen möchten.
Klicken Sie auf Zugriff entfernen.
Klicken Sie auf Bestätigen.
Datenprofilscan aktualisieren
Console
Rufen Sie in der Google Cloud Console die Seite Profil auf.
Klicken Sie in der Zeile mit dem Scan, den Sie bearbeiten möchten, auf > Bearbeiten.
Die Werte bearbeiten
Klicken Sie auf Speichern.
gcloud
Führen Sie den folgenden Befehl aus, um einen Datenprofilscan zu aktualisieren:
gcloud dataplex datascans update data-profile DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des zu aktualisierenden Datenprofilscans.LOCATION
: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.DESCRIPTION
: Die neue Beschreibung für den Datenprofilscan.
Die Spezifikationsfelder, die aktualisiert werden sollen, finden Sie in der Referenz zur gcloud CLI.
REST
Mit dem APIs Explorer können Sie einen Datenprofilscan bearbeiten.
Datenprofilscan löschen
Console
Rufen Sie in der Google Cloud Console die Seite Profil auf. Rufen Sie das Dataplex-Profil auf.
Klicken Sie auf den Scan, den Sie löschen möchten.
Klicken Sie auf Löschen.
gcloud
Führen Sie den folgenden Befehl aus, um einen Datenprofilscan zu löschen:
gcloud dataplex datascans delete \ DATASCAN --location=LOCATION \ --async
Ersetzen Sie die folgenden Variablen:
DATASCAN
: Der Name des zu löschenden Datenprofilscans.LOCATION
: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.
Informationen zu optionalen Argumenten finden Sie in der Referenz zur gcloud CLI.
REST
Verwenden Sie den APIs Explorer, um den Datenprofilscan zu löschen.
Nächste Schritte
- Weitere Informationen zur Datenprofilerstellung
- Weitere Informationen zur automatischen Datenqualität
- Weitere Informationen zur Verwendung der automatischen Datenqualität