Dataplex Universal Catalog 資料品質工作可讓您定義並執行 BigQuery 和 Cloud Storage 資料表中的資料品質檢查。您也可以透過 Dataplex Universal Catalog 資料品質工作,在 BigQuery 環境中套用定期資料控管措施。
何時建立 Dataplex Universal Catalog 資料品質工作
Dataplex Universal Catalog 資料品質工作可協助您完成下列事項:
- 在資料製作管道中驗證資料。
- 定期監控資料集品質是否符合預期。
- 根據法規要求建立資料品質報表。
優點
- 可自訂規格。您可以使用彈性極高的 YAML 語法宣告資料品質規則。
- 無伺服器導入方式:Dataplex Universal Catalog 不需要任何基礎架構設定。
- 零複製和自動下推。YAML 檢查會轉換為 SQL,並推送至 BigQuery,因此不會複製資料。
- 可排程的資料品質檢查。您可以透過 Dataplex Universal Catalog 中的無伺服器排程器,排定資料品質檢查時間,也可以透過 Cloud Composer 等外部排程器使用 Dataplex API,整合管道。
- 受管理體驗。Dataplex Universal Catalog 會使用開放原始碼資料品質引擎 CloudDQ 執行資料品質檢查。不過,Dataplex Universal Catalog 提供無縫代管體驗,可執行資料品質檢查。
資料品質任務的運作方式
下圖顯示 Dataplex Universal Catalog 資料品質工作的運作方式:
- 使用者輸入內容
- YAML 規格:一或多個 YAML 檔案的集合,根據規格語法定義資料品質規則。您將 YAML 檔案儲存在專案的 Cloud Storage 值區中。使用者可以同時執行多項規則,並將這些規則套用至不同的 BigQuery 資料表,包括不同資料集或專案中的資料表。 Google Cloud這項規格支援增量執行,僅用於驗證新資料。如要建立 YAML 規格,請參閱「建立規格檔案」。
- BigQuery 結果資料表:使用者指定的資料表,用於儲存資料品質驗證結果。這個資料表所在的專案,可以與使用 Dataplex Universal Catalog 資料品質工作的專案不同。 Google Cloud
- 要驗證的資料表
- 在 YAML 規格中,您需要指定要根據哪些規則驗證哪些資料表,這也稱為「規則繫結」。資料表可以是 BigQuery 原生資料表,也可以是 Cloud Storage 中的 BigQuery 外部資料表。您可以使用 YAML 規格,在 Dataplex Universal Catalog 區域內或外部指定資料表。
- 在單次執行中驗證的 BigQuery 和 Cloud Storage 資料表可以屬於不同專案。
- Dataplex Universal Catalog 資料品質工作:Dataplex Universal Catalog 資料品質工作會使用預先建構及維護的 CloudDQ PySpark 二進位檔進行設定,並將 YAML 規格和 BigQuery 結果資料表做為輸入內容。與其他 Dataplex Universal Catalog 工作類似,Dataplex Universal Catalog 資料品質工作會在無伺服器 Spark 環境中執行,將 YAML 規格轉換為 BigQuery 查詢,然後對規格檔案中定義的資料表執行這些查詢。
定價
執行 Dataplex Universal Catalog 資料品質工作時,系統會根據 BigQuery 和 Dataproc Serverless (批次) 的用量收費。
Dataplex Universal Catalog 資料品質工作會將規格檔案轉換為 BigQuery 查詢,並在使用者專案中執行這些查詢。請參閱 BigQuery 定價。
Dataplex Universal Catalog 會使用 Spark 執行預先建構的 Google 維護開放原始碼 CloudDQ 驅動程式,將使用者規格轉換為 BigQuery 查詢。請參閱「Dataproc Serverless 定價」。
使用 Dataplex Universal Catalog 整理資料,或使用 Dataplex Universal Catalog 中的無伺服器排程器排定資料品質檢查工作,都不會產生費用。請參閱 Dataplex Universal Catalog 定價。