可預測的轉換總覽

按學術研究的定義,可預測的轉換代表的是一組設計和介面原則,其可做為 Cloud Dataprep 使用者與所擁有的資料互動的基礎。可預測的轉換是本平台的核心所在。本節會概略說明上述概念,並提供連結以便連往介面上顯示出這些概念的位置。

總覽

基本上,可預測的轉換是為了將更深入瞭解以下主題:

  1. 資料的相關專業知識,以及
  2. 技術性知識,有時複雜的作業需要這類知識,才能˙將資料轉化為最終可用的格式。

在疊加處理資料時,專業領域的專家擁有前一項知識,這類專家理解資料的意義所在;後者則與 IT 有關,而 IT 可能對資料並未全盤理解,而無法獲得解決方案設計所需的資訊。

這種將資料從某種格式轉化為其他格式的程序一般稱為資料轉換,這個過程可細分為一系列程式設計類型的工作,著重在資料的結構、意義和統計屬性。這些工作包含以下項目:

  • 統計操縱 (剖析、離群值、插補)
  • 重組 (資料擷取、巢狀、資料透視/不透視)
  • 清除 (標準化、簡化、資料移除)
  • 強化 (彙整其他資料、查詢參考資料)
  • 蒸餾 (取樣、篩選、匯總、區間設定)

若要在大型分散式的資料集上執行這類工作,可能會遭遇到技術上的困難,難以正確執行。為了不單只是侷限在 IT 領域,可預測的轉換希望提供以下功能:

  1. 功能簡介和視覺化效果:以創新的方式顯示和挑選使用者感興趣的資料
  2. 建議:根據使用者的選取項目,系統會顯示出建議您選擇和設定的轉換
  3. 預覽:針對使用者選取的建議,提供預計變更的預覽,以便在納入資料集的轉換前先行檢查

上述週期會不斷重覆,直到一組轉換定義完畢,且得到滿意的執行結果為止。

階段

根據使用者的選擇而定,「可預測的轉換」會指導您可能的後續步驟,讓您能夠決定所要採取的步驟 (如有需要) 來修正步驟定義。可預測轉換的引導/判斷迴圈的核心會妥善配合以下反覆式階段。選取步驟時,視覺化效果會隨之更新,然後此週期會再重複一次。

階段UI 元素說明
視覺化視覺化效果可預測的轉換中,最重要的元件就是以視覺化方式呈現資料,包括可供選取的關注項目。在較大型的資料集中,關注項目周遭顯示的視覺化提示,還有可供與之互動的多種工具,均能提供各種互動類型的意義資訊,對於提供令人愉快且效率良好的使用體驗而言,是不可或缺的關鍵。
互動選取項目您會直接與視覺化效果互動,以選取特定的值、資料欄或是其他關注的項目。
預測可預測的模型與建議使用者所選項目會自動觸發對可預測模式的查詢。資料、中繼資料以及對其選取的項目,可有效定義出可預測模型的查詢。模型會傳回一系列建議使用的轉換。這類建議會引導您對某些項目採取建議的行動,都是使用者透過選取的動作而判定對之感興趣的項目。然後您可決定要採取哪一項建議,也可以修改建議相關的特定參數,或者也可以定義一個完全不同的步驟。
顯示預覽使用者選定要採取或之後要修改的步驟後,就會在資料上重疊顯示該步驟預期結果的預覽。此種方式會讓開發過程更輕鬆,還可以快速復原,也能更清晰地理解各步驟帶來的影響。

視覺化

在「可預測的轉換」中,設計視覺化效果時必須格外謹慎,才能將使用者關注的資料或中繼資料呈現出來。在 Cloud Dataprep by TRIFACTA 中,「轉換器」頁面的設計是用來呈現基礎資料集,同時運用可選取的項目來引導您。

圖:轉換頁面包含豐富的資訊重疊和選項提示

特定的視覺化效果提示:

  1. 會將資料轉譯為常見的柵格格式,不論其基礎架構為何。
    1. 可選取的值和資料欄
  2. 資料品質長條會標示為不同顏色:
    1. 綠色:有效
    2. 黑色:遺漏
    3. 紅色:無效 (與資料類型比對)
    4. 選取一種顏色,即可選取所有對應的值
  3. 個別資料欄的直方圖
    1. 選取直方圖上的一個值或多個值,即會醒目顯示其他資料欄的直方圖中相對應的值,能夠以視覺化的方式輕鬆比較。
  4. 完整資料集的中繼資料,以及個別資料欄的類型和統計資訊。請參閱資料欄詳細資料面板

透過這種方法,視覺化效果可讓使用者的互動不再侷限於資料和程式碼的領域,而能提供更為直觀的呈現方式。

您仍必須透過選取動作來進行指定,而指定的語法會提升到視覺化的領域中,而建立技術查詢的細部工作就交由應用程式來管理。

探索:透過設計,這種互動模式可支援詳細的明確性和模糊性。您可以進行選取、預覽結果,再判定預覽是否符合預期。此外,您可從方案中復原和移除所有的步驟,因此可探索不同的步驟以及整個資料轉換做法。有些解決方案需要與與使用者有更多技術性的互動,而經常發生模糊性容忍度的問題,這點使缺乏豐富經驗和/或訓練的使用者表達意圖的能力受到許多限制。請參閱轉換頁面

選取項目

當您檢閱覺化效果時,游標的變化代表該項目可供選擇。

圖:選取游標懸停在可供選擇項目上時,會有所變化

以下類型的選取項目會觸發後續階段:

  • 儲存格的值和儲存格內的值
  • 資料欄

    如您在資料網格中選取單一資料欄,即會觸發資料欄資料的視覺化剖析,並提供一組建議。如選取多個資料欄,則會觸發不同的一組建議供您套用於所有選取的資料欄。

  • 資料直方圖中的值
  • 資料品質直條圖內的值的類別 (如有效、無效或遺漏)

資料欄和值皆可多選。

您仍然必須在資料中進行選取,因此在轉換資料的問題上也需考慮特定領域的專業知識。選取動作會因套用預測服務,而觸發更為複雜的查詢。

可預測的模式

推斷演算法會根據一組選取項目,嘗試解譯該選取項目的資料轉換目的,並產生一組經過排序的建議和模式,供選取項目比對。舉例而言,如果您選取了一個儲存格內的前三個字元,則演算法可能會產生用於資料移除的兩種轉換建議:一種用來移除包含特定文字的資料列,另一種用來保留欄位中含有該模式的文字的所有資料列。

符合選取項目的值屬於可預測模型傳回結果的一部分,會在表格中醒目顯示。

可預測的模式會解讀選取項目,以識別其目的。可能的意圖會以視覺化方式,做為一項或多項轉換建議項目顯示出來,而盡可能避免出現轉換語言。

建議和其子類

可預測的模式會從使用者的互動、所選資料、過往資訊以及其他來源計算出一系列可能的接續步驟,轉化為一組建議。由於這些步驟基本上是對於使用者意圖的預測,會以可瀏覽的資訊卡的形勢顯示,使用者可透過資訊卡進一步探索,消除其選取意圖的不確定性。

圖:建議資訊卡 - 選取項目所引導的建議

附註:

  • 通常,建議資訊卡會先列出幾種模式化的建議。
  • 模式化的建議始終以 Cloud Dataprep 模式為基礎,並且比規則運算式更容易使用。
  • 使用文字表達式的變體通常列在最後。然而如果一個資料欄中有大量的文字,則可以在卡中首先列出文字的變體。

建議資訊卡的內容相當明確,可立即執行。如需要額外的詳細規格或指引,您可選擇修正轉換和其參數。

在建議資訊卡中,您可查看所選轉換的多個子類

第一項是最明確適用於資料柵格中目前選取項目的子類。您可以將滑鼠游標移至子類上方,檢視轉換的不同版本。將滑鼠移往第二個子類時,會發現這類子類對資料集的變更更為具體,或是使用量較低

當您將滑鼠游標移至建議資訊卡上不同的轉換子類時,預覽彈出式視窗會自動更新以反映變化。選取該子類時,預覽窗格也會隨之更新。您隨時均可修改轉換,以檢視詳細的差異之處。

預覽

選取建議資訊卡時,您可在資料網格中預覽所選轉換的結果,以便事先查看資料集的變更。

圖:轉換的影響預覽

將轉換新增至方案時,系統會將轉換轉譯為資料轉換語言並即時套用至資料集,因此您可立即開始執行下一個程序步驟。

選取轉換後,所選的轉換和您提供的其他指示,都會在轉換語言中轉譯為明確的程式設計步驟。這個步驟會反過來轉譯為可能是分散式的複雜查詢,會套用到整個資料集上。透過此種方式,使用者就不需要額外的技術性細節和知識,也能熟練運用轉換。

其他步驟 - 修改

透過轉換指令製作工具進行修改

如有需要,您可以修改任何選取項目,譬如可以調整參數來進一步修正用途,以求達成特定結果。在 Cloud Dataprep by TRIFACTA 中,按一下 [Edit] 即可調整在轉換製作工具中的各項轉換。

圖:在轉換指令製作工具中修改轉換

Wrangle

實際的轉換步驟已寫在 Wrangle 之中 (用於資料轉換的一種特定網域語言)。Wrangle 具有下列特性:

  • 單一來源轉換,提供轉化的結果,但不會修改原始來源資料
  • 針對各種不同的資料類型和自訂的資料類型,提供數字和文字資料的一般清理和轉換作業。
  • 適用於管理 JSON 等巢狀資料的結構轉換
  • 多個資料集轉換,例如查詢、彙整及聯集
  • 將資料轉換為中繼資料,例如資料透視和資料不透視作業
  • 文字選取模式,包含規則運算式,做為巨集類型的參照使用。請參閱文字配對一文。

如需更多資訊,請參閱 Wrangle 語言一文。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁