Dataplex Universal Catalog 資料剖析功能可協助您找出 BigQuery 資料表中資料欄的常見統計特徵。這項資訊有助於您更有效率地瞭解及分析資料。
例如,典型資料值、資料分布和空值計數等資訊,有助於加快分析速度。資料剖析與資料分類搭配使用時,可偵測資料類別或私密資訊,進而啟用存取控管政策。
Dataplex Universal Catalog 也會使用這項資訊建議資料品質檢查規則。
概念模型
您可以建立資料剖析掃描作業,進一步瞭解資料剖析檔。
下圖說明 Dataplex Universal Catalog 如何掃描資料,並回報統計特徵。
資料剖析掃描作業會與一個 BigQuery 資料表建立關聯,並掃描該資料表以產生資料剖析結果。資料剖析掃描支援多種設定選項。
設定選項
本節說明執行資料剖析掃描時可用的設定選項。
排程選項
您可以透過 API 或 Google Cloud 控制台,排定資料剖析掃描的執行頻率,或視需要執行掃描。
範圍
指定資料剖析掃描時,您可以將工作範圍設為下列任一選項:
完整資料表:資料剖析掃描會掃描整個資料表。 系統會先對整個資料表套用抽樣、資料列篩選器和資料欄篩選器, 再計算剖析統計資料。
增量:在資料剖析掃描中掃描您指定的增量資料。在表格中指定要當做增量的
Date
或Timestamp
資料欄。通常這是指資料表的分區依據資料欄。系統會先對增量資料套用抽樣、資料列篩選器和資料欄篩選器,再計算剖析統計資料。
篩選資料
您可以使用資料列篩選器和資料欄篩選器,篩選要掃描以進行剖析的資料。使用篩選器可縮短執行時間、降低成本,並排除機密和無用的資料。
資料列篩選器:資料列篩選器可讓您著重於特定時間範圍或特定區隔 (例如區域) 的資料。舉例來說,您可以篩除特定日期之前的時間戳記資料。
資料欄篩選器:資料欄篩選器可讓您在表格中加入和排除特定資料欄,以執行資料剖析掃描。
範例資料
Dataplex Universal Catalog 可讓您指定資料中的記錄百分比,以進行資料剖析掃描。在較小的資料樣本上建立資料剖析掃描,可縮短執行時間,並降低查詢整個資料集的成本。
多項資料剖析掃描作業
您可以使用 Google Cloud 控制台,一次建立多項資料剖析掃描作業。您可以從一個資料集選取最多 100 個資料表,並為每個資料集建立資料剖析掃描。瞭解詳情。
將掃描結果匯出至 BigQuery 資料表
您可以將資料剖析掃描結果匯出至 BigQuery 資料表,以供進一步分析。如要自訂報表,您可以將 BigQuery 資料表資料連結至 Looker 資訊主頁。您可以對多項掃描作業使用相同的結果資料表,藉此建立匯總報表。
資料剖析結果
資料剖析結果包含下列值:
資料欄類型 | 資料剖析結果 |
---|---|
數值資料欄 |
|
字串資料欄 |
|
其他非巢狀資料欄 (日期、時間、時間戳記、二進位等) |
|
所有其他巢狀或複雜資料類型資料欄 (例如記錄、陣列、JSON),或任何具有重複模式的資料欄。 |
|
結果會顯示每次執行掃描的記錄數。
回報與監控
您可以透過下列報表和方法,監控及分析資料剖析結果:
在 BigQuery 和 Dataplex Universal Catalog 頁面中,發布含有來源資料表的報表
如果您已設定資料剖析掃描作業,將結果發布至Google Cloud 控制台的 BigQuery 和 Dataplex Universal Catalog 頁面,則可以在任何專案的「資料剖析」分頁中,查看這些頁面的最新資料剖析掃描結果。
Dataplex Universal Catalog 中的工作歷來報告
在 Dataplex Universal Catalog 的「Profile」(設定檔) 頁面,您可以查看最新和歷來工作的詳細報表。包括欄層級設定檔資訊和使用的設定。
「分析」分頁
在 Dataplex Universal Catalog 的「Profile」頁面,您可以使用「Analysis」分頁,查看多個剖析工作期間,資料欄特定統計資料的趨勢。舉例來說,如果您有增量掃描,可以查看一段時間內值的平均趨勢。
建立專屬資訊主頁或數據分析
如果您已設定資料剖析掃描作業,將結果匯出或儲存至 BigQuery 資料表,即可使用 Looker Studio 等工具建立自己的資訊主頁。
限制
- 資料剖析作業支援所有欄類型 (
BIGNUMERIC
除外) 的 BigQuery 資料表。如果為含有BIGNUMERIC
資料欄的資料表建立掃描作業,系統會產生驗證錯誤,且無法順利建立掃描作業。
定價
Dataplex Universal Catalog 會使用進階處理作業 SKU,針對資料剖析作業收費。詳情請參閱「定價」。
資料剖析的 Dataplex Universal Catalog 進階處理作業費用,是以秒為單位計算,且均會產生 1 分鐘的基本費用。
系統不會對失敗的剖析掃描收取費用。
費用取決於資料列數、資料欄數、掃描的資料量、資料表的分割和叢集設定,以及掃描頻率。
您可以透過下列幾種方式降低資料剖析掃描的成本:
- 取樣
- 掃描增量
- 欄篩選
- 資料列篩選
如要在 Dataplex Universal Catalog 進階處理 SKU 中,將資料剖析費用與其他費用分開,請在 Cloud 帳單報表中使用標籤
goog-dataplex-workload-type
,並將值設為DATA_PROFILE
。如要篩選匯總費用,請使用下列標籤:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
後續步驟
- 瞭解如何使用資料剖析功能。
- 瞭解自動分析資料品質。
- 瞭解如何使用自動資料品質。
- 瞭解如何生成資料洞察以探索資料。