建立及使用資料剖析掃描

本頁說明如何建立及管理資料剖析掃描作業。資料剖析可協助您找出 BigQuery 資料表中資料欄的常見統計特徵。這項資訊有助於您更有效地瞭解及分析資料。

如要進一步瞭解 Dataplex Universal Catalog 資料剖析掃描作業,請參閱「關於資料剖析」。

事前準備

Enable the Dataplex API.

Enable the API

必要的角色

如要分析 BigQuery 資料表,您需要下列權限:

  • 如要對 BigQuery 資料表執行資料剖析掃描,您必須具備讀取 BigQuery 資料表的權限,以及在用於掃描資料表的專案中建立 BigQuery 工作的權限。

  • 如果 BigQuery 資料表和資料剖析掃描作業位於不同專案,您必須授予 Dataplex Universal Catalog 服務帳戶對應 BigQuery 資料表的讀取權限。

  • 如果 BigQuery 資料是透過 Dataplex Universal Catalog 湖泊整理,您需要 Dataplex Universal Catalog 角色 roles/dataplex.metadataReaderroles/dataplex.viewer,才能建立資料剖析掃描作業。這會授予下列權限:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • 如要掃描 Cloud Storage 中的 BigQuery 外部資料表,請將 Storage 物件檢視者 (roles/storage.objectViewer) 角色或值區的下列權限指派給 Dataplex Universal Catalog 服務帳戶:

    • storage.buckets.get
    • storage.objects.get
  • 如要在來源資料表的Google Cloud 控制台中,將資料剖析掃描結果發布至 BigQuery 和 Dataplex Universal Catalog 頁面,您必須在資料表上獲派 BigQuery 資料編輯者 (roles/bigquery.dataEditor) 角色。或者,您需要具備下列所有權限:

    • bigquery.tables.get
    • bigquery.tables.update
    • bigquery.tables.updateData
    • bigquery.tables.delete
  • 如要將掃描結果匯出至 BigQuery 資料表,Dataplex Universal Catalog 服務帳戶需要「BigQuery 資料編輯者」(roles/bigquery.dataEditor) 角色。這會授予下列權限:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • 如要存取受 BigQuery 資料欄層級存取權政策保護的資料欄,請為這些資料欄指派 Dataplex Universal Catalog 服務帳戶權限。建立或更新資料掃描作業的使用者也需要具備資料欄的權限。

  • 如果資料表已啟用 BigQuery 資料列層級存取權政策,您只能掃描 Dataplex Universal Catalog 服務帳戶可見的資料列。請注意,系統不會評估個別使用者的存取權限是否符合資料列層級政策。

資料掃描角色和權限

如要使用資料剖析功能,請要求管理員授予下列其中一種 IAM 角色:

  • roles/dataplex.dataScanAdmin:具備 DataScan 資源的完整存取權。
  • roles/dataplex.dataScanEditorDataScan 資源的寫入權限。
  • roles/dataplex.dataScanViewerDataScan 資源的讀取權限,結果除外。
  • roles/dataplex.dataScanDataViewerDataScan 資源的讀取權限,包括結果。

下表列出資料掃描權限:

權限名稱 授予下列權限:
dataplex.datascans.create 建立 DataScan
dataplex.datascans.delete 刪除 DataScan
dataplex.datascans.get 查看DataScan詳細資料 (不含結果)
dataplex.datascans.getData 查看DataScan詳細資料,包括結果
dataplex.datascans.list 清單 DataScan
dataplex.datascans.run 執行 DataScan
dataplex.datascans.update 更新 DataScan 的說明
dataplex.datascans.getIamPolicy 查看掃描作業目前的 IAM 權限
dataplex.datascans.setIamPolicy 設定掃描作業的 IAM 權限

建立資料剖析掃描

控制台

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「資料剖析與品質」頁面。

    前往「Data profiling & quality」(資料剖析與品質) 頁面

  2. 按一下「建立資料剖析掃描」

  3. 選用:輸入「顯示名稱」

  4. 輸入 ID。請參閱「資源命名慣例」。

  5. 選用:輸入說明

  6. 在「Table」(資料表) 欄位中,按一下「Browse」(瀏覽)。選擇要掃描的資料表,然後按一下「選取」

    如為多區域資料集內的資料表,請選擇要建立資料掃描的區域。

    如要瀏覽 Dataplex Universal Catalog 湖泊中整理的資料表,請按一下「Browse within Dataplex Lakes」(在 Dataplex 湖泊中瀏覽)

  7. 在「範圍」欄位中,選擇「增量」或「完整資料」

    • 如果選擇「增量資料」,請在「時間戳記資料欄」欄位中,從 BigQuery 資料表選取 DATETIMESTAMP 類型的資料欄,這類資料欄的值只會增加,並能用來識別新的記錄。如要以 DATETIMESTAMP 類型的資料欄做為分區依據,建議使用分區資料欄做為時間戳記欄位。
  8. 選用:如要篩選資料,請執行下列任一操作:

    • 如要依資料列篩選,請勾選「篩選資料列」核取方塊。 輸入有效的 SQL 運算式,該運算式可使用 GoogleSQL 語法中的 WHERE 子句。例如:col1 >= 0

      篩選器可以是多個資料欄的 SQL 條件組合。例如 col1 >= 0 AND col2 < 10

    • 如要依欄篩選,請選取「篩選欄」核取方塊。

      • 如要在設定檔掃描中加入資料欄,請在「Include columns」(包含資料欄) 欄位中按一下「Browse」(瀏覽)。選取要納入的資料欄,然後按一下「選取」

      • 如要從設定檔掃描中排除資料欄,請在「排除資料欄」欄位中按一下「瀏覽」。選取要排除的資料欄,然後按一下「選取」

  9. 如要對資料剖析掃描作業套用取樣,請在「取樣大小」清單中選取取樣百分比。請選擇介於 0.0% 和 100.0% 之間的百分比值,最多可有 3 位小數。

    • 如果是較大的資料集,請選擇較低的取樣百分比。舉例來說,如果資料表大小為 1 PB,且您輸入的值介於 0.1% 到 1.0% 之間,資料剖析就會取樣 1 到 10 TB 的資料。

    • 抽樣資料中必須至少有 100 筆記錄,才能傳回結果。

    • 如果是增量資料掃描,資料剖析掃描會對最新增量套用取樣。

  10. 選用步驟:在Google Cloud 控制台的 BigQuery 和 Dataplex Universal Catalog 頁面中,發布來源資料表的資料剖析掃描結果。選取「將結果發布至 BigQuery 和 Dataplex Catalog UI」核取方塊。

    您可以在來源資料表的 BigQuery 和 Dataplex Universal Catalog 頁面中,透過「資料剖析檔」分頁標籤查看最新的掃描結果。如要讓使用者存取已發布的掃描結果,請參閱本文的「授予資料剖析掃描結果的存取權」一節。

    在下列情況下,可能無法使用發布選項:

    • 您沒有資料表的必要權限。
    • 已將另一項資料品質掃描設為發布結果。
  11. 在「時間表」部分,選擇下列其中一個選項:

    • 重複:排定資料剖析掃描的執行時間,例如每小時、每天、每週、每月或自訂。指定掃描的執行頻率和時間。如果選擇自訂,請使用 cron 格式指定排程。

    • 依需求:依需求執行資料剖析掃描。

  12. 按一下「繼續」

  13. 選用步驟:將掃描結果匯出至 BigQuery 標準資料表。在「將掃描結果匯出至 BigQuery 資料表」部分,執行下列操作:

    1. 在「選取 BigQuery 資料集」欄位中,按一下「瀏覽」。選取要用來儲存資料剖析檔掃描結果的 BigQuery 資料集。

    2. 在「BigQuery table」(BigQuery 資料表) 欄位中,指定要儲存資料剖析掃描結果的資料表。如果使用現有資料表,請確認該資料表與匯出資料表結構定義相容。如果指定的資料表不存在,Dataplex Universal Catalog 會為您建立。

  14. 選用:新增標籤。標籤是鍵/值組合,可用來將相關的物件分組,或與其他 Google Cloud 資源組合。

  15. 如要建立掃描作業,請按一下「建立」

    如果將排程設為隨選,您也可以點選「執行掃描」立即執行掃描。

gcloud

如要建立資料剖析掃描,請使用 gcloud dataplex datascans create data-profile 指令

如果來源資料是按照 Dataplex Universal Catalog 湖泊整理,請加入 --data-source-entity 旗標:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

如果來源資料未整理到 Dataplex Universal Catalog 湖泊中,請加入 --data-source-resource 旗標:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

請替換下列變數:

  • DATASCAN:資料剖析掃描的名稱。
  • LOCATION:建立資料剖析掃描的 Google Cloud 區域。
  • DATA_SOURCE_ENTITY:包含資料剖析檔掃描資料的 Dataplex Universal Catalog 實體。例如:projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
  • DATA_SOURCE_RESOURCE:包含資料剖析掃描資料的資源名稱。例如://bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

REST

如要建立資料剖析掃描作業,請使用 dataScans.create 方法

匯出資料表結構定義

如要將資料剖析掃描結果匯出至現有 BigQuery 資料表,請確認該資料表與下列資料表結構定義相容:

資料欄名稱 資料欄資料類型 子欄位名稱 (如適用) 子欄位資料類型 模式 範例
data_profile_scan struct/record resource_name string 可為空值 //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string 可為空值 test-project
location string 可為空值 us-central1
data_scan_id string 可為空值 test-datascan
data_source struct/record resource_name string 可為空值

實體案例: //dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

表格案例: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

dataplex_entity_project_id string 可為空值 test-project
dataplex_entity_project_number integer 可為空值 123456789012
dataplex_lake_id string 可為空值

(僅在來源為實體時有效)

test-lake

dataplex_zone_id string 可為空值

(僅在來源為實體時有效)

test-zone

dataplex_entity_id string 可為空值

(僅在來源為實體時有效)

test-entity

table_project_id string 可為空值 dataplex-table
table_project_number int64 可為空值 345678901234
dataset_id string 可為空值

(僅在來源為資料表時有效)

test-dataset

table_id string 可為空值

(僅在來源為資料表時有效)

test-table

data_profile_job_id string 可為空值 caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string 可為空值 ondemand/schedule
incremental boolean 可為空值 true/false
sampling_percent float 可為空值

(0-100)

20.0 (表示 20%)

row_filter string 可為空值 col1 >= 0 AND col2 < 10
column_filter json 可為空值 {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json 可為空值 {"key1":value1}
job_start_time timestamp 可為空值 2023-01-01 00:00:00 UTC
job_end_time timestamp 可為空值 2023-01-01 00:00:00 UTC
job_rows_scanned integer 可為空值 7500
column_name string 可為空值 column-1
column_type string 可為空值 string
column_mode string 可為空值 repeated
percent_null float 可為空值

(0.0-100.0)

20.0 (表示 20%)

percent_unique float 可為空值

(0.0-100.0)

92.5

min_string_length integer 可為空值

(僅在資料欄類型為字串時有效)

10

max_string_length integer 可為空值

(僅在資料欄類型為字串時有效)

4

average_string_length float 可為空值

(僅在資料欄類型為字串時有效)

7.2

min_value float 可為空值 (僅在資料欄類型為數值 (整數/浮點數) 時有效)
max_value float 可為空值 (僅在資料欄類型為數值 (整數/浮點數) 時有效)
average_value float 可為空值 (僅在資料欄類型為數值 (整數/浮點數) 時有效)
standard_deviation float 可為空值 (僅在資料欄類型為數值 (整數/浮點數) 時有效)
quartile_lower integer 可為空值 (僅在資料欄類型為數值 (整數/浮點數) 時有效)
quartile_median integer 可為空值 (僅在資料欄類型為數值 (整數/浮點數) 時有效)
quartile_upper integer 可為空值 (僅在資料欄類型為數值 (整數/浮點數) 時有效)
top_n struct/record - repeated value string 可為空值 "4009"
count integer 可為空值 20
percent float 可為空值 10 (表示 10%)

匯出對照表設定

將資料匯出至 BigQueryExport 資料表時,請遵守下列準則:

  • 針對 resultsTable 欄位,請使用下列格式: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}
  • 使用 BigQuery 標準資料表。
  • 如果建立或更新掃描作業時,資料表不存在,Dataplex Universal Catalog 會為您建立資料表。
  • 根據預設,資料表會依 job_start_time 資料欄每日分區。
  • 如要以其他設定將資料表分區,或是不想分區,請使用所需結構定義和設定重新建立資料表,然後將預先建立的資料表做為結果資料表。
  • 請確認結果資料表與來源資料表位於同一位置。
  • 如果專案已設定 VPC-SC,結果資料表必須與來源資料表位於同一個 VPC-SC 範圍。
  • 如果在掃描執行階段修改資料表,目前執行的工作會匯出至先前的結果資料表,且資料表變更會從下一個掃描工作生效。
  • 請勿修改資料表結構定義。如需自訂資料欄,請在表格上建立檢視畫面。
  • 如要降低費用,請根據用途設定分區的到期時間。詳情請參閱「設定資料分割區到期時間」。

建立多項資料剖析掃描作業

您可以使用 Google Cloud 控制台,同時為 BigQuery 資料集中的多個資料表設定資料剖析掃描作業。

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「資料剖析與品質」頁面。

    前往「Data profiling & quality」(資料剖析與品質) 頁面

  2. 按一下「建立資料剖析掃描」

  3. 選取「多項資料剖析掃描作業」選項。

  4. 輸入 ID 前置字串。Dataplex Universal Catalog 會使用提供的前置字串和不重複的後置字串,自動產生掃描 ID。

  5. 為所有資料剖析掃描輸入說明

  6. 在「Dataset」(資料集) 欄位中,按一下「Browse」(瀏覽)。選取要從中挑選資料表的資料集。按一下「選取」

  7. 如果資料集屬於多區域,請選取要建立資料剖析掃描作業的區域

  8. 設定掃描的通用設定:

    1. 在「範圍」欄位中,選擇「增量」或「完整資料」

    2. 如要對資料剖析掃描套用取樣,請在「取樣大小」清單中選取取樣百分比。

      請選擇介於 0.0% 和 100.0% 之間的百分比值,最多可有 3 位小數。

    3. 選用步驟:在Google Cloud 控制台的 BigQuery 和 Dataplex Universal Catalog 頁面中,發布來源資料表的資料剖析掃描結果。選取「將結果發布至 BigQuery 和 Dataplex Catalog UI」核取方塊。

      您可以在來源資料表的 BigQuery 和 Dataplex Universal Catalog 頁面中,透過「資料剖析檔」分頁標籤查看最新的掃描結果。如要讓使用者存取已發布的掃描結果,請參閱本文的「授予資料剖析掃描結果的存取權」一節。

    4. 在「時間表」部分,選擇下列其中一個選項:

      • 重複:按照排程執行資料剖析掃描,包括每小時、每天、每週、每月或自訂。指定掃描的執行頻率和時間。如果選擇自訂,請使用 cron 格式指定排程。

      • 隨選:視需要執行資料剖析掃描。

  9. 按一下「繼續」

  10. 在「選擇資料表」欄位中,按一下「瀏覽」。選擇要掃描的一或多個表格,然後按一下「選取」

  11. 按一下「繼續」

  12. 選用步驟:將掃描結果匯出至 BigQuery 標準資料表。在「將掃描結果匯出至 BigQuery 資料表」部分,執行下列操作:

    1. 在「選取 BigQuery 資料集」欄位中,按一下「瀏覽」。選取要用來儲存資料剖析檔掃描結果的 BigQuery 資料集。

    2. 在「BigQuery table」(BigQuery 資料表) 欄位中,指定要儲存資料剖析掃描結果的資料表。如果使用現有資料表,請確認該資料表與匯出資料表結構定義相容。如果指定的資料表不存在,Dataplex Universal Catalog 會為您建立。

      Dataplex Universal Catalog 會為所有資料剖析掃描作業使用相同的結果資料表。

  13. 選用:新增標籤。標籤是鍵/值組合,可用來將相關物件分組,或與其他 Google Cloud 資源組合。

  14. 如要建立掃描作業,請按一下「建立」

    如果將排程設為「按需求」,您也可以點選「執行掃描」立即執行掃描。

執行資料剖析掃描

控制台

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「資料剖析與品質」頁面。

    前往「Data profiling & quality」(資料剖析與品質) 頁面

  2. 按一下要執行的資料剖析掃描。
  3. 按一下「立即執行」

gcloud

如要執行資料剖析掃描,請使用 gcloud dataplex datascans run 指令

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

請替換下列變數:

  • DATASCAN:資料剖析掃描的名稱。
  • LOCATION:建立資料剖析掃描作業的 Google Cloud 區域。

REST

如要執行資料剖析掃描,請使用 dataScans.run 方法

查看資料剖析掃描結果

控制台

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「資料剖析與品質」頁面。

    前往「Data profiling & quality」(資料剖析與品質) 頁面

  2. 按一下資料剖析掃描的名稱。

    • 「總覽」部分會顯示最近一次工作的相關資訊,包括掃描執行時間、掃描的資料表記錄數和工作狀態。

    • 「資料剖析掃描設定」部分會顯示掃描的詳細資料。

  3. 如要查看工作的詳細資訊,例如掃描的資料表欄、掃描中找到的欄統計資料和工作記錄,請按一下「工作記錄」分頁標籤。然後按一下工作 ID。

gcloud

如要查看資料剖析掃描工作結果,請使用 gcloud dataplex datascans jobs describe 指令

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

請替換下列變數:

  • JOB:資料剖析掃描作業的作業 ID。
  • LOCATION:建立資料剖析掃描作業的 Google Cloud 區域。
  • DATASCAN:資料剖析掃描作業所屬的名稱。
  • --view=FULL:如要查看掃描作業結果,請指定 FULL

REST

如要查看資料剖析掃描結果,請使用 dataScans.get 方法

查看已發布的結果

如果資料剖析掃描結果發布至 Google Cloud 控制台的 BigQuery 和 Dataplex Universal Catalog 頁面,您可以在來源資料表的「資料剖析」分頁中查看最新的掃描結果。

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Search」(搜尋) 頁面。

    前往「Search」(搜尋) 頁面

  2. 搜尋並選取資料表。

  3. 按一下「資料設定檔」分頁標籤。

    系統會顯示最新發布的結果。

查看最近一次的資料剖析掃描工作

控制台

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「資料剖析與品質」頁面。

    前往「Data profiling & quality」(資料剖析與品質) 頁面

  2. 按一下資料剖析掃描的名稱。

  3. 按一下「最近一次的工作結果」分頁標籤。

    如果至少有一項執行作業成功完成,「最近一次的工作結果」分頁會提供最近一次工作的相關資訊。這份報表會列出掃描的資料表欄,以及掃描時發現的欄統計資料。

gcloud

如要查看最近一次成功掃描的資料剖析檔,請使用 gcloud dataplex datascans describe 指令

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

請替換下列變數:

  • DATASCAN:要查看最新工作資料的資料剖析掃描名稱。
  • LOCATION:建立資料剖析掃描的 Google Cloud 區域。
  • --view=FULL:如要查看掃描作業結果,請指定 FULL

REST

如要查看最近的掃描工作,請使用 dataScans.get 方法

查看歷來掃描結果

Dataplex Universal Catalog 會儲存最近 300 項作業的資料剖析掃描記錄,或過去一年的記錄 (以先到者為準)。

控制台

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「資料剖析與品質」頁面。

    前往「Data profiling & quality」(資料剖析與品質) 頁面

  2. 按一下資料剖析掃描的名稱。

  3. 按一下「工作記錄」分頁標籤。

    「工作記錄」分頁提供過去工作相關資訊,例如每項工作掃描的記錄數、工作狀態,以及工作執行時間。

  4. 如要查看工作的詳細資訊,請按一下「工作 ID」欄中的任一工作。

gcloud

如要查看歷來資料剖析掃描工作,請使用 gcloud dataplex datascans jobs list 指令

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

請替換下列變數:

  • LOCATION:建立資料剖析掃描的 Google Cloud 區域。
  • DATASCAN:要查看作業的資料剖析掃描名稱。

REST

如要查看歷來資料剖析掃描工作,請使用 dataScans.jobs.list 方法

授予資料剖析掃描結果的存取權

如要允許貴機構中的使用者查看掃描結果,請按照下列步驟操作:

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「資料剖析與品質」頁面。

    前往「Data profiling & quality」(資料剖析與品質) 頁面

  2. 按一下要分享結果的資料品質掃描。

  3. 按一下「Permissions」(權限) 分頁標籤。

  4. 請執行下列步驟:

    • 如要授予主體存取權,請按一下「授予存取權」。將「Dataplex DataScan 資料檢視者」角色授予相關聯的主體。
    • 如要移除主體的存取權,請選取要移除 Dataplex DataScan DataViewer 角色的主體。依序點選 「移除存取權」,然後在系統提示時確認。

管理特定資料表的資料剖析掃描

本文將逐步說明如何使用 Google Cloud 控制台的 Dataplex Universal Catalog「資料剖析與品質」頁面,管理專案中的資料剖析掃描作業。

您也可以在處理特定資料表時,建立及管理資料剖析掃描作業。在 Google Cloud 控制台中,前往資料表的 Dataplex Universal Catalog 頁面,然後使用「資料剖析」分頁標籤。請執行下列步驟:

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Search」(搜尋) 頁面。

    前往「Search」(搜尋) 頁面

    搜尋並選取資料表。

  2. 按一下「資料設定檔」分頁標籤。

  3. 視資料表是否已發布資料剖析掃描結果而定,您可以透過下列方式處理資料表的資料剖析掃描:

    • 已發布資料剖析掃描結果:頁面會顯示最新發布的掃描結果。

      如要管理這個資料表的資料剖析掃描作業,請按一下「資料剖析掃描」,然後選取下列其中一個選項:

      • 建立新的掃描作業:建立新的資料剖析掃描作業。詳情請參閱本文的「建立資料剖析掃描」一節。從資料表的詳細資料頁面建立掃描時,系統會預先選取該資料表。

      • 「立即執行」:執行掃描。

      • 編輯掃描設定:編輯設定,包括顯示名稱、篩選器、取樣大小和時間表。

      • 管理掃描作業權限:控管哪些人可以存取掃描結果。 詳情請參閱本文的「授予資料剖析掃描結果的存取權」一節。

      • 查看歷來結果:查看先前資料剖析掃描工作的詳細資訊。詳情請參閱本文的「查看資料剖析掃描結果」和「查看歷來掃描結果」一節。

      • 查看所有掃描作業:查看適用於這個資料表的資料剖析掃描作業清單。

    • 資料剖析掃描結果未發布:按一下「快速剖析資料」旁的選單,然後選取下列任一選項:

      • 自訂資料剖析作業:建立新的資料剖析掃描作業。詳情請參閱本文的「建立資料剖析掃描」一節。從資料表的詳細資料頁面建立掃描時,系統會預先選取該資料表。

      • 查看先前的剖析檔:查看適用於這個資料表的資料剖析掃描清單。

更新資料剖析掃描

控制台

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「資料剖析與品質」頁面。

    前往「Data profiling & quality」(資料剖析與品質) 頁面

  2. 按一下資料剖析掃描的名稱。

  3. 按一下「編輯」,然後編輯值。

  4. 按一下 [儲存]

gcloud

如要更新資料剖析掃描,請使用 gcloud dataplex datascans update data-profile 指令

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

請替換下列變數:

  • DATASCAN:要更新的資料剖析掃描名稱。
  • LOCATION:建立資料剖析掃描的 Google Cloud 區域。
  • DESCRIPTION:資料設定檔掃描的新說明。

REST

如要編輯資料剖析掃描作業,請使用 dataScans.patch 方法

刪除資料剖析掃描

控制台

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「資料剖析與品質」頁面。

    前往「Data profiling & quality」(資料剖析與品質) 頁面

  2. 按一下要刪除的掃描結果。

  3. 按一下「刪除」,然後在系統提示時確認刪除。

gcloud

如要刪除資料剖析檔掃描作業,請使用 gcloud dataplex datascans delete 指令

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

請替換下列變數:

  • DATASCAN:要刪除的資料設定檔掃描名稱。
  • LOCATION:建立資料剖析掃描的 Google Cloud 區域。

REST

如要刪除資料剖析檔掃描作業,請使用 dataScans.delete 方法

後續步驟