本頁面由 Cloud Translation API 翻譯而成。

關於資料剖析

Dataplex Universal Catalog 會自動剖析 BigQuery 資料表，方便您瞭解及分析資料。

剖析就像是取得資料的詳細健康報告，這項功能會提供重要統計資料，例如常見值、資料分布情形，以及缺少多少項目 (空值計數)。這項資訊可加快分析速度。

資料剖析功能會自動偵測機密資訊，並讓您設定存取控管政策。並建議資料品質檢查規則，確保資料保持可靠。

概念模型

您可以建立資料剖析掃描作業，進一步瞭解資料剖析檔。

下圖說明 Dataplex Universal Catalog 如何掃描資料，並回報統計特徵。

資料剖析掃描作業會與一個 BigQuery 資料表建立關聯，並掃描該資料表以產生資料剖析結果。資料剖析掃描支援多種設定選項。

設定選項

本節說明執行資料剖析掃描時可用的設定選項。

排程選項

您可以排定資料剖析掃描的執行頻率，也可以視需要執行掃描。

範圍

您可以指定要掃描的資料範圍：

完整資料表：資料剖析檔掃描會掃描整個資料表。系統會先對整個資料表套用抽樣、資料列篩選器和資料欄篩選器，再計算剖析統計資料。
增量：在資料剖析掃描中掃描您指定的增量資料。在表格中指定要當做增量的 Date 或 Timestamp 資料欄。通常這是指資料表的分區依據資料欄。系統會先對增量資料套用抽樣、資料列篩選器和資料欄篩選器，再計算剖析統計資料。

篩選資料

您可以使用資料列篩選器和資料欄篩選器，篩選要掃描以進行剖析的資料。使用篩選器可縮短執行時間、降低成本，並排除機密和無用的資料。

資料列篩選器：資料列篩選器可讓您著重於特定時間範圍或特定區隔 (例如區域) 的資料。舉例來說，您可以篩除特定日期之前的時間戳記資料。
資料欄篩選器：您可以使用資料欄篩選器，在表格中加入及排除特定資料欄，以執行資料剖析掃描。

範例資料

您可以指定要從資料中取樣的記錄百分比，以執行資料剖析掃描。對較小的資料樣本建立資料剖析掃描，可縮短執行時間，並降低查詢整個資料集的成本。

多項資料剖析掃描作業

您可以使用 Google Cloud 控制台，一次建立多項資料剖析掃描作業。您最多可以從一個資料集選取 100 個資料表，並為每個資料集建立資料剖析檔掃描。詳情請參閱建立多項資料剖析掃描作業。

將掃描結果匯出至 BigQuery 資料表

您可以將資料剖析掃描結果匯出至 BigQuery 資料表，以供進一步分析。如要自訂報表，您可以將 BigQuery 資料表資料連結至 Looker 資訊主頁。您可以對多項掃描作業使用相同的結果資料表，藉此建立匯總報表。

資料剖析結果

資料剖析結果包含下列值：

資料欄類型	資料剖析結果
數值資料欄	空值百分比。不重複 (相異) 值的近似百分比。資料欄中最常見的 10 個值。如果資料欄中的不重複值數量少於 10 個 (不含空值)，則此值可能小於 10。系統會顯示每個最常見值在目前掃描中出現的百分比。平均值、標準差、最小值、近似下四分位數、近似中位數、近似上四分位數和最大值。
字串資料欄	空值百分比。不重複 (相異) 值的近似百分比。欄中最常見的 10 個值 (如果欄中的唯一值少於 10 個，則會顯示少於 10 個值)。字串的平均長度、最短長度和最長長度。
其他非巢狀資料欄 (日期、時間、時間戳記、二進位等)	空值百分比。不重複 (相異) 值的近似百分比。欄中最常見的 10 個值 (如果欄中的唯一值少於 10 個，則會顯示少於 10 個值)。
所有其他巢狀或複雜資料類型資料欄 (例如 Record、Array、JSON)，或任何具有重複模式的資料欄。	空值百分比。

結果會顯示每個工作中掃描的記錄數。

回報與監控

您可以透過下列報表和方法，監控及分析資料剖析結果：

在 BigQuery 和 Dataplex Universal Catalog 頁面中，使用來源資料表發布的報表

如果您已設定資料剖析掃描作業，將結果發布至Google Cloud 控制台的 BigQuery 和 Dataplex Universal Catalog 頁面，則可以在這些頁面和來源資料表的「資料剖析」分頁中，查看任何專案的最新資料剖析掃描結果。
歷來資料，每項工作一份報表

在 Dataplex Universal Catalog 和 BigQuery 的「Data profiling & quality」(資料剖析與品質) >「Data profile scan」(資料剖析掃描) 頁面中，您可以查看最新和歷來工作的詳細報表。包括欄層級的設定檔資訊和所用的設定。
「分析」分頁

在 Dataplex Universal Catalog 和 BigQuery 的「資料剖析與品質」>「資料剖析掃描」頁面中，您可以透過「分析」分頁，查看多個剖析工作中某個資料欄統計資料的趨勢。舉例來說，如果您有增量掃描，可以查看一段時間內值的平均趨勢。
建立專屬資訊主頁或數據分析

如果您已設定資料剖析掃描作業，將結果匯出至 BigQuery 資料表，即可使用 Looker Studio 等工具建構自己的資訊主頁。

限制

資料剖析作業支援所有欄類型 (BIGNUMERIC 除外) 的 BigQuery 資料表。如果為含有 BIGNUMERIC 資料欄的資料表建立掃描作業，系統會產生驗證錯誤，且無法順利建立掃描作業。

定價

如要進一步瞭解定價，請參閱「Dataplex Universal Catalog 定價」。