Datenprofilscans erstellen und verwenden

Auf dieser Seite wird beschrieben, wie Sie einen Datenprofilscan mit der Google Cloud Console, der Google Cloud CLI oder der REST API erstellen.

Weitere Informationen zu Dataplex-Datenprofilscans finden Sie unter Datenprofilerstellung.

Hinweise

Aktivieren Sie in der Google Cloud Console die Dataplex API.

API aktivieren

Berechtigungen

Sie benötigen die folgenden Berechtigungen, um Profile für BigQuery-Tabellen zu erstellen:

  • Zum Ausführen eines Datenprofilscans für eine BigQuery-Tabelle benötigen Sie die Berechtigung zum Lesen der BigQuery-Tabelle und die Berechtigung zum Erstellen eines BigQuery-Jobs in dem Projekt, das zum Scannen der Tabelle verwendet wird.

  • Wenn sich die BigQuery-Tabelle und der Datenprofilscan in verschiedenen Projekten befinden, müssen Sie dem Dataplex-Dienstkonto Leseberechtigung für die entsprechende BigQuery-Tabelle erteilen.

  • Wenn die BigQuery-Daten in einem Dataplex-Lake organisiert sind, benötigen Sie zum Erstellen eines Datenprofilscans die Dataplex-Rollen roles/dataplex.metadataReader und roles/dataplex.viewer. Dadurch werden die folgenden Berechtigungen gewährt:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Wenn Sie eine externe BigQuery-Tabelle aus Cloud Storage scannen, weisen Sie dem Dataplex-Dienstkonto entweder die Rolle „Cloud Storage-Objektbetrachter“ (roles/storage.objectViewer) oder die folgenden Berechtigungen für den Bucket zu:

    • storage.buckets.get
    • storage.objects.get
  • Wenn Sie die Ergebnisse des Datenprofilscans für die Quelltabellen auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console veröffentlichen möchten, muss Ihnen entweder die IAM-Rolle „BigQuery-Dateneditor“ (roles/bigquery.dataEditor) oder die Berechtigung bigquery.tables.update für die Tabelle gewährt werden.

  • Zum Exportieren der Scanergebnisse in eine BigQuery-Tabelle benötigt das Dataplex-Dienstkonto die Rolle „BigQuery-Dateneditor“ (roles/bigquery.dataEditor). Dadurch werden die folgenden Berechtigungen gewährt:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Wenn Sie auf Spalten zugreifen müssen, die durch BigQuery-Zugriffsrichtlinien auf Spaltenebene geschützt sind, weisen Sie diesen Spalten die Berechtigungen des Dataplex-Dienstkontos zu. Der Nutzer, der einen Datenscan erstellt oder aktualisiert, benötigt auch Berechtigungen für die Spalten.

  • Wenn für eine Tabelle BigQuery-Zugriffsrichtlinien auf Zeilenebene aktiviert sind, können Sie nur Zeilen scannen, die für das Dataplex-Dienstkonto sichtbar sind. Beachten Sie, dass die Zugriffsberechtigungen des einzelnen Nutzers nicht auf Richtlinien auf Zeilenebene ausgewertet werden.

Rollen und Berechtigungen für Datenscans

Zur Verwendung der Datenprofilerstellung weist ein Projektadministrator entweder eine vordefinierte Rolle mit bereits gewährten Berechtigungen oder einzelne Berechtigungen zu. Die Rollen sind:

  • roles/dataplex.dataScanAdmin: Vollständiger Zugriff auf DataScan Ressourcen.
  • roles/dataplex.dataScanEditor: Schreibzugriff auf DataScan Ressourcen.
  • roles/dataplex.dataScanViewer: Lesezugriff auf DataScan Ressourcen, mit Ausnahme der Ergebnisse.
  • roles/dataplex.dataScanDataViewer: Lesezugriff auf DataScan-Ressourcen, einschließlich der Ergebnisse.

In der folgenden Tabelle sind die Berechtigungen für den Datenscan aufgeführt:

Name der Berechtigung Erteilt die Berechtigung für folgende Aktionen:
dataplex.datascans.create DataScan erstellen
dataplex.datascans.delete DataScan löschen
dataplex.datascans.get DataScan Details ohne Ergebnisse ansehen
dataplex.datascans.getData Details zu DataScan einschließlich Ergebnissen ansehen
dataplex.datascans.list DataScan auflisten
dataplex.datascans.run DataScan ausführen
dataplex.datascans.update Beschreibung eines DataScan aktualisieren
dataplex.datascans.getIamPolicy Aktuelle IAM-Berechtigungen für den Scan ansehen
dataplex.datascans.setIamPolicy IAM-Berechtigungen für den Scan festlegen

Datenprofilscan erstellen

Console

  1. Rufen Sie in der Google Cloud Console die Seite Profil auf.

    Zum Dataplex-Profil

  2. Klicken Sie auf Datenprofilscan erstellen.

  3. Geben Sie einen Anzeigenamen ein.

  4. Wenn Sie die automatisch generierte Scan-ID ändern möchten, geben Sie Ihre eigene an. Siehe Namenskonvention für Ressourcen.

  5. Optional: Geben Sie eine Beschreibung ein.

  6. Klicken Sie im Feld Tabelle auf Durchsuchen.

  7. Wählen Sie eine Tabelle aus und klicken Sie auf Auswählen.

  8. Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.

    • Wenn Sie Inkrementelle Daten auswählen, wählen Sie im Feld Zeitstempelspalte eine Spalte vom Typ DATE oder TIMESTAMP aus der BigQuery-Tabelle aus, die monoton zunimmt und zum Identifizieren neuer Datensätze verwendet werden kann. Für Tabellen, die nach einer Spalte vom Typ DATE oder TIMESTAMP partitioniert sind, empfehlen wir die Verwendung der Partitionsspalte als Zeitstempelfeld.
  9. Wählen Sie in der Liste Stichprobengröße einen Stichprobenprozentsatz aus, um Stichproben auf Ihren Datenprofilscan anzuwenden.

    • Wählen Sie einen Prozentwert zwischen 0,0% und 100% mit bis zu drei Dezimalstellen aus.
    • Wählen Sie für größere Datasets einen niedrigeren Prozentsatz für die Stichprobenerhebung aus. Wenn Sie beispielsweise für eine Tabelle mit etwa 1 PB einen Wert zwischen 0,1% und 1, 0 % eingeben, führt Dataplex Stichproben mit 1–10 TB Daten aus.
    • Sie benötigen mindestens 100 Datensätze in den Stichprobendaten, um ein Ergebnis zurückzugeben.
    • Bei inkrementellen Datenscans wendet Dataplex Stichproben auf das letzte Inkrement an.
  10. Um nach Zeilen zu filtern, klicken Sie auf Filter und wählen Sie Zeilen filtern aus.

    • Geben Sie einen gültigen SQL-Ausdruck ein, der in einer WHERE-Klausel in der BigQuery-Standard-SQL-Syntax verwendet werden kann. Beispiel: col1 >= 0.

    • Der Filter kann eine Kombination von SQL-Bedingungen über mehrere Spalten sein. Beispiel: col1 >= 0 AND col2 < 10.

  11. Optional: Klicken Sie auf Filter. Klicken Sie das Kästchen Spalten filtern an.

    a. Klicken Sie im Feld Spalten einschließen auf Durchsuchen.

    • Geben Sie alle Spalten an, die in den Profilscan aufgenommen werden sollen. Wählen Sie die gewünschten Spalten aus, indem Sie die Kästchen anklicken und dann auf Auswählen klicken.

    b. Klicken Sie im Feld Spalten ausschließen auf Durchsuchen.

    • Geben Sie alle Spalten an, die vom Profilscan ausgeschlossen werden sollen. Wählen Sie die gewünschten Spalten aus, indem Sie die Kästchen anklicken und dann auf Auswählen klicken.
  12. Optional: Veröffentlichen Sie die Ergebnisse des Datenprofilscans auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console für die Quelltabelle. Klicken Sie auf das Kästchen Ergebnisse auf der UI von BigQuery und Dataplex Catalog veröffentlichen.

    Die letzten Scanergebnisse werden auf dem Tab Datenprofil der BigQuery- und Data Catalog-Seiten der Quelltabelle angezeigt. Informationen dazu, wie Sie Nutzern den Zugriff auf die veröffentlichten Scanergebnisse ermöglichen, finden Sie unter Veröffentlichte Ergebnisse freigeben.

    In den folgenden Fällen ist die Veröffentlichungsoption möglicherweise nicht verfügbar:

    • Sie haben nicht die erforderlichen Berechtigungen für die Tabelle.
    • Ein anderer Datenqualitätsscan ist so eingestellt, dass Ergebnisse veröffentlicht werden.

    Weitere Informationen zu den Berechtigungen, die zum Aufrufen der veröffentlichten Ergebnisse erforderlich sind, finden Sie unter Berechtigungen.

  13. Optional: Exportieren Sie die Scanergebnisse in eine BigQuery-Standardtabelle. Klicken Sie auf Durchsuchen, um ein vorhandenes BigQuery-Dataset auszuwählen, in dem die Ergebnisse des Datenprofilscans gespeichert werden sollen.

    Wenn die angegebene Tabelle nicht vorhanden ist, erstellt Dataplex sie für Sie. Wenn Sie eine vorhandene Tabelle verwenden, achten Sie darauf, dass sie mit dem weiter unten in diesem Abschnitt beschriebenen Tabellenschema kompatibel ist.

  14. Optional: Fügen Sie Labels hinzu. Labels sind key:value-Paare, mit denen Sie verwandte Objekte zusammen oder mit anderen Google Cloud-Ressourcen gruppieren können.

  15. Wählen Sie unter Zeitplanoptionen eine der folgenden Optionen aus:

    • Wiederholen: Führen Sie den Datenprofilscan nach einem Zeitplan aus: täglich, wöchentlich, monatlich oder benutzerdefiniert. Geben Sie an, wie oft und zu welcher Uhrzeit der Scan ausgeführt werden soll. Wenn Sie den benutzerdefinierten Zeitplan auswählen, geben Sie den Zeitplan im Cron-Format an.

    • On-Demand: Erstellen Sie den Datenprofilscan und führen Sie ihn jederzeit mit der Aktion "Run now" (Jetzt ausführen) aus.

  16. Klicken Sie auf Erstellen.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofilscan zu erstellen:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY
| --data-source-resource=DATA_SOURCE_RESOURCE

Ersetzen Sie die folgenden Variablen:

  • DATASCAN: Der Name des Datenprofilscans.
  • LOCATION: Die Google Cloud-Region, in der der Datenprofilscan erstellt werden soll.
  • DATA_SOURCE_ENTITY: Die Dataplex-Entität, die die Daten für den Datenprofilscan enthält. Beispiel: projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
  • DATA_SOURCE_RESOURCE: Der Name der Ressource, die die Daten für den Datenprofilscan enthält. Beispiel: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Erstellen Sie mit APIs Explorer einen Datenprofilscan.

Mehrere Datenprofilscans erstellen

Console

  1. Rufen Sie in der Google Cloud Console die Seite Profil auf.

    Zum Dataplex-Profil

  2. Klicken Sie auf Mehrere Profilscans erstellen.

  3. Geben Sie ein ID-Präfix ein. Dataplex generiert mithilfe des angegebenen Präfixes und der eindeutigen Suffixe automatisch Scan-IDs.

  4. Geben Sie eine Beschreibung für alle Datenprofilscans ein.

  5. Klicken Sie im Feld Dataset auf Durchsuchen. Wählen Sie ein Dataset zum Auswählen von Tabellen aus. Klicken Sie auf Auswählen.

  6. Wenn das Dataset multiregional ist, wählen Sie eine Region aus, in der die Datenprofilscans erstellt werden sollen.

  7. Wählen Sie Allgemeine Konfigurationsoptionen aus:

    1. Wählen Sie im Feld Umfang die Option Inkrementell oder Gesamte Daten aus.

    2. Wählen Sie in der Liste Stichprobengröße einen Stichprobenprozentsatz aus, um Stichproben auf Ihre Datenprofilscans anzuwenden.

      Wählen Sie einen Prozentwert zwischen 0,0% und 100,0% mit bis zu drei Dezimalstellen aus.

    3. Wenn Sie die Ergebnisse aller Scans ansehen möchten, wählen Sie Veröffentlichung aus. Sie können die Ergebnisse in den Details der BigQuery- oder Data Catalog-Tabelle auf dem Tab Profil ansehen. Prüfen Sie, ob Sie die Berechtigungen bigquery.tables.update für die Quelltabellen haben.

    4. Wählen Sie unter Zeitplanoptionen eine der folgenden Optionen aus:

      1. Wiederholen: Führen Sie Ihre Datenprofilscanjobs nach einem Zeitplan aus. Geben Sie an, wie oft der Scan ausgeführt werden soll (täglich, wöchentlich, monatlich oder benutzerdefiniert) und zu welcher Uhrzeit. Wenn Sie „Benutzerdefiniert“ auswählen, verwenden Sie das cron-Format, um den Zeitplan anzugeben.

      2. On-Demand: Erstellen Sie Ihre Datenprofilscanjobs und führen Sie sie jederzeit aus. Klicken Sie dazu auf Ausführen.

  8. Klicken Sie unter Tabellen auswählen auf Durchsuchen. Wählen Sie eine oder mehrere der zu scannenden Tabellen aus. Klicken Sie auf Auswählen.

  9. Wählen Sie Weitere Einstellungen aus:

    1. Wenn Sie die Ergebnisse der Datenprofilscans in einer BigQuery-Tabelle Ihrer Wahl speichern möchten, wählen Sie unter Scanergebnisse in BigQuery-Tabelle exportieren eine Tabelle aus. Dataplex kopiert die Ergebnisse für jeden Scanjob automatisch und speichert sie in dieser Tabelle.

      1. Klicken Sie auf Durchsuchen, um ein Dataset auszuwählen.

      2. Geben Sie eine BigQuery-Tabelle ein, in der die Ergebnisse gespeichert werden sollen. Dies kann eine vorhandene Tabelle sein, die von anderen Dataplex-Datenprofilscans verwendet wird, um Ergebnisse zu speichern. Wenn keine solche Tabelle mit dem angegebenen Namen vorhanden ist, erstellt Dataplex die Tabelle.

    2. Fügen Sie Labels hinzu, um Ihren Datenprofilscan zu annotieren.

  10. Klicken Sie auf Scan ausführen, um alle Scans zu erstellen und auszuführen. Diese Option ist nur für On-Demand-Scans verfügbar.

  11. Klicken Sie auf Erstellen, um alle Scans zu erstellen.

gcloud

Nicht unterstützt.

REST

Nicht unterstützt.

Tabellenschema exportieren

Wenn Sie die Ergebnisse des Datenprofilscans in eine vorhandene BigQuery-Tabelle exportieren möchten, achten Sie darauf, dass sie mit dem folgenden Tabellenschema kompatibel ist:

Spaltenname Datentyp der Spalte Name des Unterfelds
(falls zutreffend)
Datentyp des Unterfelds Modus Beispiel
data_profile_scan struct/record resource_name string Nullwerte zulässig //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string Nullwerte zulässig test-project
location string Nullwerte zulässig us-central1
data_scan_id string Nullwerte zulässig test-datascan
data_source struct/record resource_name string Nullwerte zulässig Entitätsfall:
//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Tabellenfall: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
dataplex_entity_project_id string Nullwerte zulässig test-project
dataplex_entity_project_number integer Nullwerte zulässig 123456789012
dataplex_lake_id string Nullwerte zulässig (Nur gültig, wenn die Quelle eine Entität ist)
test-lake
dataplex_zone_id string Nullwerte zulässig (Nur gültig, wenn die Quelle eine Entität ist)
test-zone
dataplex_entity_id string Nullwerte zulässig (Nur gültig, wenn die Quelle eine Entität ist)
test-entity
table_project_id string Nullwerte zulässig dataplex-table
table_project_number int64 Nullwerte zulässig 345678901234
dataset_id string Nullwerte zulässig (Nur gültig, wenn Quelle eine Tabelle ist)
test-dataset
table_id string Nullwerte zulässig (Nur gültig, wenn Quelle eine Tabelle ist)
test-table
data_profile_job_id string Nullwerte zulässig caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string Nullwerte zulässig ondemand/schedule
incremental boolean Nullwerte zulässig true/false
sampling_percent float Nullwerte zulässig (0–100)
20.0 (zeigt 20 % an)
row_filter string Nullwerte zulässig col1 >= 0 AND col2 < 10
column_filter json Nullwerte zulässig {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json Nullwerte zulässig {"key1":value1}
job_start_time timestamp Nullwerte zulässig 2023-01-01 00:00:00 UTC
job_end_time timestamp Nullwerte zulässig 2023-01-01 00:00:00 UTC
job_rows_scanned integer Nullwerte zulässig 7500
column_name string Nullwerte zulässig column-1
column_type string Nullwerte zulässig string
column_mode string Nullwerte zulässig repeated
percent_null float Nullwerte zulässig (0,0–100,0)
20.0 (gibt 20 % an)
percent_unique float Nullwerte zulässig (0,0–100,0)
92.5
min_string_length integer Nullwerte zulässig (Nur gültig, wenn der Spaltentyp „String“ ist)
10
max_string_length integer Nullwerte zulässig (Nur gültig, wenn der Spaltentyp „String“ ist)
4
average_string_length float Nullwerte zulässig (Nur gültig, wenn der Spaltentyp „String“ ist)
7.2
min_value float Nullwerte zulässig (Nur gültig, wenn der Spaltentyp numerisch ist (Ganzzahl/Gleitkommazahl))
max_value float Nullwerte zulässig (Nur gültig, wenn der Spaltentyp numerisch ist (Ganzzahl/Gleitkommazahl))
average_value float Nullwerte zulässig (Nur gültig, wenn der Spaltentyp numerisch ist (Ganzzahl/Gleitkommazahl))
standard_deviation float Nullwerte zulässig (Nur gültig, wenn der Spaltentyp numerisch ist (Ganzzahl/Gleitkommazahl))
quartile_lower integer Nullwerte zulässig (Nur gültig, wenn der Spaltentyp numerisch ist (Ganzzahl/Gleitkommazahl))
quartile_median integer Nullwerte zulässig (Nur gültig, wenn der Spaltentyp numerisch ist (Ganzzahl/Gleitkommazahl))
quartile_upper integer Nullwerte zulässig (Nur gültig, wenn der Spaltentyp numerisch ist (Ganzzahl/Gleitkommazahl))
top_n struct/record - repeated value string Nullwerte zulässig "4009"
count integer Nullwerte zulässig 20
percent float Nullwerte zulässig 10 (zeigt 10 % an)

Tabelleneinrichtung exportieren

Beachten Sie beim Exportieren in BigQueryExport-Tabellen die folgenden Richtlinien:

  • Verwenden Sie für das Feld resultsTable folgendes Format: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Verwenden Sie eine BigQuery-Standardtabelle.
  • Wenn die Tabelle beim Erstellen oder Aktualisieren des Scans nicht vorhanden ist, erstellt Dataplex sie für Sie.
  • Standardmäßig wird die Tabelle täglich nach der Spalte job_start_time partitioniert.
  • Wenn Sie die Tabelle in anderen Konfigurationen partitionieren möchten oder nicht, erstellen Sie die Tabelle mit dem erforderlichen Schema und den erforderlichen Konfigurationen neu und geben Sie dann die vorab erstellte Tabelle als Ergebnistabelle an.
  • Achten Sie darauf, dass sich die Ergebnistabelle am selben Speicherort wie die Quelltabelle befindet.
  • Wenn VPC-SC für das Projekt konfiguriert ist, muss sich die Ergebnistabelle im selben VPC-SC-Perimeter wie die Quelltabelle befinden.
  • Wenn die Tabelle während der Phase der Scanausführung geändert wird, wird der aktuell ausgeführte Job in die vorherige Ergebnistabelle exportiert. Die Tabellenänderung wird ab dem nächsten Scanjob wirksam.
  • Ändern Sie das Tabellenschema nicht. Wenn Sie benutzerdefinierte Spalten benötigen, erstellen Sie eine Ansicht der Tabelle.
  • Legen Sie basierend auf Ihrem Anwendungsfall einen Ablauf für die Partition fest, um Kosten zu senken. Weitere Informationen finden Sie unter Ablauf der Partition festlegen.

Datenprofilscan ausführen

Console

  1. Rufen Sie in der Google Cloud Console die Dataplex-Seite Profil auf. Profil aufrufen
  2. Klicken Sie zum Ausführen auf den Datenprofilscan.
  3. Klicken Sie auf Jetzt ausführen.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofilscan auszuführen:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Ersetzen Sie die folgenden Variablen:

  • DATASCAN: Der Name des Datenprofilscans.
  • LOCATION: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Führen Sie den Datenprofilscan mit APIs Explorer aus.

Ergebnisse des Datenprofilscanjobs ansehen

Console

Alle von Ihnen erstellten Datenprofilscans werden auf der Seite Profil angezeigt.

Wenn Sie detaillierte Ergebnisse eines Scans aufrufen möchten, klicken Sie auf den Namen des Scans.

  • Im Abschnitt Übersicht werden die Scanausführungen, der Zeitpunkt jeder Ausführung, die Anzahl der gescannten Tabelleneinträge und der Jobstatus angezeigt.

  • Der Bereich Konfiguration des Profilscans enthält Details zum Scan.

gcloud

Führen Sie den folgenden Befehl aus, um die Ergebnisse eines Datenprofilscanjobs anzusehen:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Ersetzen Sie die folgenden Variablen:

  • JOB: Job-ID des Datenprofilscanjobs.
  • LOCATION: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.
  • DATASCAN: Der Name des Datenprofilscans, zu dem der Job gehört.
  • --view=FULL: Geben Sie FULL an, damit das Ergebnis des Scanjobs angezeigt wird.

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Sehen Sie sich mit APIs Explorer die Ergebnisse eines Datenprofilscans an.

Letzten Datenprofilscan ansehen

Console

Wenn mindestens eine erfolgreich abgeschlossene Ausführung vorhanden ist, finden Sie auf dem Tab Neueste Jobergebnisse Informationen zum letzten Job. Sie listet die Spalten der gescannten Tabelle und Statistiken zu den Spalten auf, die im Scan gefunden wurden.

gcloud

Führen Sie den folgenden Befehl aus, um den letzten erfolgreichen Datenprofilscan abzurufen:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Ersetzen Sie die folgenden Variablen:

  • DATASCAN: Der Name des Datenprofilscans, für den der letzte Job angezeigt werden soll.
  • LOCATION: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.
  • --view=FULL: Geben Sie FULL an, damit das Ergebnis des Scanjobs angezeigt wird.

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Rufen Sie den neuesten Scanjob mit APIs Explorer auf.

Alle Datenprofilscanjobs ansehen

Dataplex speichert den Datenprofilscanverlauf der letzten 300 Jobs oder für das vergangene Jahr, je nachdem, was zuerst eintritt.

Console

Der Tab Auftragsverlauf enthält Informationen zu früheren Aufträgen. Es listet alle Jobs, die Anzahl der in jedem Job gescannten Datensätze, den Jobstatus, die Jobausführungszeit und mehr auf.

Um detaillierte Informationen zu einem Job anzusehen, klicken Sie unter Job-ID auf einen der Jobs.

gcloud

Führen Sie den folgenden Befehl aus, um alle Jobs eines Datenprofilscans anzusehen:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Ersetzen Sie die folgenden Variablen:

  • LOCATION: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.
  • DATASCAN: Der Name des Datenprofilscans, für den alle Jobs angezeigt werden sollen.

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Rufen Sie alle Scanjobs mit APIs Explorer auf.

Veröffentlichte Ergebnisse teilen

Wenn Sie beim Erstellen eines Datenprofilscans ausgewählt haben, dass die Scanergebnisse auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console veröffentlicht werden sollen, sind die neuesten Scanergebnisse auf dem Tab Datenprofil dieser Seiten verfügbar.

Sie können den Nutzern in Ihrer Organisation Zugriff auf die veröffentlichten Scanergebnisse gewähren. So gewähren Sie Zugriff auf die Scanergebnisse:

  1. Rufen Sie in der Google Cloud Console die Seite Profil auf.

    Zum Dataplex-Profil

  2. Klicken Sie auf den Datenprofilscan, dessen Ergebnisse Sie freigeben möchten.

  3. Wechseln Sie zum Tab Berechtigungen.

  4. Klicken Sie auf Zugriff erlauben.

  5. Fügen Sie im Feld Neue Hauptkonten das Hauptkonto hinzu, auf das Sie Zugriff gewähren möchten.

  6. Wählen Sie im Feld Rolle auswählen die Option Dataplex DataScan DataViewer aus.

  7. Klicken Sie auf Speichern.

So entfernen Sie den Zugriff auf die veröffentlichten Scanergebnisse für ein Hauptkonto:

  1. Rufen Sie in der Google Cloud Console die Seite Profil auf.

    Zum Dataplex-Profil

  2. Klicken Sie auf den Datenprofilscan, dessen Ergebnisse Sie freigeben möchten.

  3. Wechseln Sie zum Tab Berechtigungen.

  4. Wählen Sie das Hauptkonto aus, für das Sie die Rolle Dataplex DataScan DataViewer entfernen möchten.

  5. Klicken Sie auf Zugriff entfernen.

  6. Klicken Sie auf Bestätigen.

Datenprofilscan aktualisieren

Console

  1. Rufen Sie in der Google Cloud Console die Seite Profil auf.

    Zum Dataplex-Profil

  2. Klicken Sie in der Zeile mit dem Scan, den Sie bearbeiten möchten, auf > Bearbeiten.

  3. Die Werte bearbeiten

  4. Klicken Sie auf Speichern.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofilscan zu aktualisieren:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Ersetzen Sie die folgenden Variablen:

  • DATASCAN: Der Name des Datenprofilscans, der aktualisiert werden soll.
  • LOCATION: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.
  • DESCRIPTION: Die neue Beschreibung für den Datenprofilscan.

Informationen zu zu aktualisierenden Spezifikationsfeldern finden Sie in der Referenz zur gcloud CLI.

REST

Bearbeiten Sie mit APIs Explorer einen Datenprofilscan.

Datenprofilscan löschen

Console

  1. Rufen Sie in der Google Cloud Console die Seite Profil auf. Rufen Sie das Dataplex-Profil auf.

  2. Klicken Sie auf den Scan, den Sie löschen möchten.

  3. Klicken Sie auf Löschen.

gcloud

Führen Sie den folgenden Befehl aus, um einen Datenprofilscan zu löschen:

gcloud dataplex datascans delete \
DATASCAN --location=LOCATION \
--async

Ersetzen Sie die folgenden Variablen:

  • DATASCAN: Der Name des zu löschenden Datenprofilscans.
  • LOCATION: Die Google Cloud-Region, in der der Datenprofilscan erstellt wurde.

Optionale Argumente finden Sie in der Referenz zur gcloud CLI.

REST

Löschen Sie den Datenprofilscan mit APIs Explorer.

Nächste Schritte