剖析基本資訊

Cloud Dataprep by TRIFACTA® INC. 能夠以視覺化的方式呈現個別資料欄和整個資料集的資料,方便您快速評估問題、異常模式和必要的資料變更。

提示:在建立方案的過程中,以視覺化的方式呈現數據特別重要。假如您發現有興趣的內容,可以選擇以視覺化的方式呈現資料,該平台會向您提供一組建議的轉換,讓您加進方案中。範例如下:

如要進一步瞭解背景知識,請參閱視覺化數據呈現總覽一文。

剖析來源資料

提示:首次在應用程式中載入資料集時,您可以決定先執行資料集剖析工作,然後再建立方案。產生的結果和剖析資料可透過應用程式存取,方便您瞭解疊加資料集在建立過程中的變化。詳情請參閱剖析您的來源資料

在應用程式中剖析

在 Cloud Dataprep 應用程式中,有許多功能可提供有關個別資料欄、其資料和整個資料集狀態的視覺化資訊。

附註:執行工作之前,剖析資訊 (例如:資料欄統計資料) 是目前載入樣本的確切計數。執行工作後,工作結果頁面內的剖析結果可能會包含部分指標和計數的預估值,視資料集的規模而定。

狀態列

目前樣本的資料列、資料欄和資料類型計數會顯示在頁面底部的狀態列中:

提示:在「Transformer」(轉換器) 頁面中的樣本計數會用於資料分析。在視覺化設定檔作為工作的一部分而產生時,計數會從整個資料集中取得。

圖:狀態列

欄標題

每一資料欄的頂端都包含資料品質長條,用來表示相較於指定資料類型,該資料欄中有效、不相符和遺漏的值;此外,您還會看到資料欄直方圖,用來表示資料欄中值的範圍。

圖:範例資料欄

資料品質長條:遺漏和不相符的值

資料欄名稱底下有一個彩色長條,表示相較於該資料欄所屬的資料類型,該資料欄中的有效 (綠色)、不相符 (紅色) 和遺漏 (黑色) 的值。在上圖中,資料類型是設為「網址」。

提示:您可以在資料欄的資料品質長條中按一下遺漏或不相符的值,系統會提示您修正或移除這些值的轉換建議。

資料欄直方圖

每一資料欄都包含欄中值的直方圖。在上圖中,資料欄內有 402 種不同的值,而且您可以看出某些值的出現頻率比其他值要高。

提示:

  • 在資料欄直方圖中,您可以選取資料欄的值並拖曳滑鼠,藉此選取特定範圍的值來查看轉換建議。
  • 空值是遺漏值的一種特例。您可以使用 ISNULL 函式找出資料欄中的空值 (空值屬於遺漏值類別)。請參閱管理空值一文。
  • 在資料欄直方圖中選取一或多個值時,您可以針對其他資料欄查看直方圖中資料列值的對應值。

請參閱資料欄直方圖一文。

資料欄詳細資料 - 統計資料和離群值

在「資料欄詳細資料」視窗中,您可以針對資料欄中的值查看相關的重要統計資訊,實際顯示的統計資料則視資料欄的資料類型而定。

如要進一步瞭解資料欄的資料,請在資料格線中特定資料欄的下拉式選單中選取 [資料欄詳細資料]

圖:資料欄細節

針對所選資料欄,您可以查看重要統計資料 (視資料類型而定)。上圖顯示的是適用於網址資料類型的統計資料,這種資料類型為字串類型的變化版本。

提示:

  • 從頂端、不相符清單以及其他值清單中做出選擇,以在面對如何修改選取的資料列時,獲得若干建議提示。
  • 系統會根據您選取的項目更新轉換建議。
  • 在資料品質長條中按一下遺漏的值後,系統會提供建議,協助您處理資料欄中的這類值。

請參閱資料欄詳細資料面板

資料欄瀏覽器 - 跨資料欄的剖析

在資料欄瀏覽器中,您可以查看資料集中每個資料欄的視覺化長方圖,並且做出選擇以識別多個資料欄中值的關聯。如要開啟資料欄瀏覽器,請按一下轉換列的 [資料欄] 圖示。

詳情請參閱資料欄瀏覽器面板

剖析工作

執行工作時,您可以產生整個資料集的視覺化剖析結果,以做為工作的一部分。您可以透過產生的剖析結果簡化方案的反覆改進流程。選用的結果剖析可能需要額外的時間才能產生。

步驟:

  1. 在「轉換」頁面中,按一下 [執行工作]。
  2. 勾選 [剖析結果] 核取方塊。

  3. 執行工作。
  4. 工作完成時,按一下工作 ID 連結。然後在「Job Details」(工作詳細資料) 頁面按一下「Profile」(剖析) 分頁標籤。

圖:視覺化剖析

視覺化剖析結果會顯示整個資料集的統計資料。由於整個資料集的資料量可能相當龐大,因此這些統計資料可能是概略值。請參閱「Job Details」(工作詳細資料) 頁面

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁