視覺化剖析總覽

總覽

在 Cloud Dataprep by TRIFACTA® 中,視覺化剖析會提供即時互動式的資料集視覺化呈現,協助您探索、清除及轉換資料。視覺化呈現在解譯大量資料時不可或缺,而本平台創新的剖析技術會將關鍵的統計資訊視覺化,並以動態、容易操作的方式來呈現,藉以提升轉換速度。

  • 在個別資料欄層級,視覺化剖析結果會提供視覺化的互動式統計資訊,並以適合該資料類型的方式呈現。例如,郵遞區號資料類型的資料欄可以透過美國地理地圖呈現。
  • 所有視覺化的剖析結果皆為互動式,所以您可以深入瞭解資料的詳細資訊。在剖析結果中選取一或多個元素後,即可透過定義的步驟或平台提供的轉換建議,立即對資料採取動作。
  • 「轉換器」頁面會依據您在資料格線中選取的值、資料列或資料欄,來顯示一組建議採取的動作。這些顯示建議的依據為平台邏輯與之前的使用資訊。詳情請參閱可預測的轉換總覽

當您在「轉換器」頁面中轉換資料時、深入瞭解個別資料欄的詳細資料時,以及大規模執行工作之後,均可使用視覺化剖析結果。這些介面各有不同的使用模式,其目的在於加速及簡化轉換過程中特定區域的資料轉換作業。

用途

  • 找出異常情況。 視覺化剖析會呈現個別資料欄中的遺漏資料或無效資料。您可以視需要選取及轉換這些值。

  • 識別分佈。 在資料格線中,您可以檢查資料集裡每個資料欄值的分佈狀況。探索資料欄詳細資料時,您還可以識別和選取資料欄資料中的統計離群值。

  • 識別需要進一步修正的區域。 工作完成後,您可以透過應用程式來檢查視覺化剖析結果,然後對有問題的資料採取行動。

範例

在以下範例中,系統已在「轉換器」頁面中載入含有地址資訊的資料集:

圖:資料集範例

在本例中,我們想探索地理資訊。從 Zip 資料欄的下拉式選單中選擇 [Column Details]

隨選探索詳細資料。從資料欄下拉式選單產生視覺化剖析結果。

當您探索新資料欄的資料欄詳細資料時,可以看到下列資料的呈現方式:

圖:以美國地圖呈現的郵遞區號資料類型

在本例中,系統會將 Zip 資料欄中的值辨識為郵遞區號資料類型。然後,應用程式會以美國地圖來呈現這些值,快速地將數字資料轉譯為更容易閱讀與分析的形式。

特定類型的視覺化呈現。以特定類型的視覺化呈現來呈現資料欄值的剖析結果,有助於快速分析資料欄中的部分值或所有值,並對此採取動作。

視覺化剖析介面

只要能與資料進行互動,視覺化剖析都能簡化程序。

自訂視覺化呈現。 不論資料是單一資料欄、整個資料集樣本或是產生的結果,每個介面 均會針對要視覺化的資料範圍進行最佳化。

資料格線

在「轉換器」頁面中,資料格線是資料集樣本的表列示呈現方式。您可以透過資料格線這個主要介面來建構轉換方案。剖析工具:

  • 資料品質長條圖:每個資料欄的頂端均會顯示圖表,其中計算了該資料欄目前資料類型的遺漏值、無效值及有效值。選取其中一個類別,即可立即對資料欄中該類別的所有值採取動作。
  • 資料欄直方圖:資料欄中的個別值會呈現在資料欄頂端的直方圖中。您可以選取一或多個值,查看相關資料並採取動作。
  • 請參閱資料格線面板

只要您選取或指定轉換,就會在資料格線中顯示該轉換結果的預覽畫面,包括受影響資料欄的資料品質長條圖及資料欄直方圖的任何變更。請參閱轉換預覽

若要進一步瞭解視覺化轉換,請參閱轉換基本資訊

資料欄詳細資料

透過「轉換器」頁面,您可以探索有關個別資料欄的統計詳細資料,這些資料會按照資料欄的資料類型以視覺化呈現。從任何資料欄的下拉式選單中選取 [資料欄詳細資料]

在這個介面中,您可以查看資料欄中的值範圍,也可以選擇性地從其他資料欄選取一或多個值,以瞭解目前的資料欄適用的值。資料欄的視覺化呈現取決於資料類型。

請參閱資料欄詳細資料面板

模式剖析

在「資料欄詳細資料」面板中,您可以查看選取資料欄中所偵測到的值模式剖析。您可以選取這些模式,以識別資料欄中符合該模式的相關值。然後,使用這些選擇項目作為建構轉換的基礎,以建立比對值所要套用的轉換。

詳情請參閱資料欄詳細資料面板

工作詳細資料

在應用程式已順利執行啟用剖析的工作之後,您可以在「工作詳細資料」頁面中探索產生的資料集視覺化呈現。請參閱工作詳細資料頁面

剖析引擎

將剖析引擎與使用者介面分離,剖析引擎會在工作執行之前及產生工作結果之後,執行強化視覺化呈現所必要的計算。

  • 在「轉換器」頁面中,只要方案新增了一個步驟,就會呼叫剖析引擎進行累進式變更,這樣您就能看到每個資料欄的視覺化剖析結果有立即的更新。它會使用不同的演算法來產生資料品質長條圖、資料欄直方圖、值計數、頻率分佈及其他相關統計資料。當您深入瞭解資料欄詳細資料時,視覺化剖析結果會是最新的,且可依據您在介面中的選擇項目再次進行更新。
  • 在工作執行期間對整個資料集執行剖析時,系統會將其作為獨立工作來查詢。

附註:當您選擇剖析結果時,即會建立兩個不同的工作:1) 對來源執行轉換方案,以及 2) 剖析結果。因為產生互動式結果的計算有一定的複雜度,所以剖析工作通常比轉換工作需要更長的時間才能完成,而剖析工作也因此成為工作執行的選擇性項目。

視覺化剖析結果的確切指標與近似指標

Cloud Dataflow

在 Cloud Dataprep by TRIFACTA 中,對 Cloud Dataflow 執行的剖析工作會與轉換工作並行執行。

指標類型測量結果
頻率 (top-k)確切值
數字直方圖確切值
簡易統計資料 (平均值、標準差、最小值、最大值)確切值
四分位數近似值

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁