轉換基本資訊

在編輯資料集方案後,即會開啟轉換器頁面,您可以在此頁面中開始對資料集樣本執行疊加工作。透過這個介面,您可以建構轉換方案,並在對樣本套用方案後即時查看結果。如果您對預覽結果感到滿意,就可以對整個資料集執行工作。

目標

當您完成下列作業時,即表示資料轉換已完成:

  • 清理無效、遺漏或不正確值的資料
  • 必要時,使用其他資料集的資料以強化您的資料集
  • 修改資料集,限制所含的值必須符合目標結構定義
  • 針對整個資料集執行的工作
  • 匯出資料集及方案結果以便在下游系統使用

提示:開始轉換之前,您應瞭解轉換資料必須符合的目標結構定義。結構定義是一組資料欄及其資料類型,這兩者定義了資料集的限制。

提示:如果您要比對目標結構定義,您可以匯入資料集以做為要對應的目標結構定義。如要進一步瞭解該進階功能,請參閱 RapidTarget 總覽

建構方案的建議方法

Cloud Dataprep by TRIFACTA® 支援下列建構方案方法。這些方法依使用難易度列示如下。

  1. 選取某項內容。 在轉換器頁面中選取資料元素時,系統會向您顯示一組建議提示,以便您對選擇或與選擇比對的模式採取相應的步驟。您可以選取資料欄或資料欄中的一或多個值。

    提示:建構方案最簡單的方法是在應用程式中選取項目。應用程式會隨著時間從您的選擇中學習,然後依據您之前的使用情況提示建議。詳情請參閱可預測的轉換總覽

  2. 工具列和資料欄選單:在轉換器頁面中,您可以透過轉換器工具列或資料欄內容選單,存取預先設定的轉換。

    提示:使用工具列進行資料集中的全域轉換,並使用資料欄選單進行一或多個選取資料欄的轉換。

    1. 選取工具列項目後,[Transform Builder] (轉換製作工具) 將預先填入各項設定及值,協助您開始使用。如有需要,您可修改步驟以符合本身需求。詳情請參閱轉換器工具列
    2. 資料欄選單包含個別或多個資料欄最常用的轉換。通常不需要額外的設定。詳情請參閱資料欄選單一文。
    3. 選取多個資料欄。繼續選取要出現提示的資料欄,並使用一組適用於所有資料欄的不同建議。
  3. 搜尋及瀏覽轉換。您可使用「Search」(搜尋) 面板及「Transform Builder」(轉換製作工具),透過簡單的選單導向介面迅速組合方案步驟。您選擇新增步驟時,可在 [Search] (搜尋) 面板搜尋偏好的轉換。選取偏好轉換後,轉換就會為您預先填入至「Transform Builder」(轉換製作工具) 中。請參閱搜尋面板

    提示:使用 [Transform Builder] (轉換製作工具) 以從您在 [Search] (搜尋) 面板或建議資訊卡中選擇的轉換來執行修改。請參閱轉換製作工具

樣本

在 Cloud Dataprep by TRIFACTA 中載入非常大的資料集,可能造成瀏覽器超載或以其他方式影響效能,所以此應用程式旨在處理資料樣本。對樣本執行完方案後,就可以對整個資料集執行該方案。

預設樣本是資料集的第一組來源資料列,列數由平台決定。如果是小型資料集,可以使用整個資料集做為樣本。在「Transformer」(轉換器) 頁面,樣本於左上角列為「Full Data」(完整資料)

在部分情況下,預設樣本可能不適用或屬於錯誤的資料類型。如要產生新樣本,請在左上角按下樣本名稱。

注意:收集新樣本需要系統資源及儲存空間。在某些環境中,收集樣本會產生成本。

提示:如果您已納入變更資料集列數的步驟,或是其他永久修改資料的步驟 (保留、刪除、查詢、彙整或資料透視作業),就可考慮收集新樣本。如果您後續移除了執行修改作業的步驟,產生的樣本便不再有效且會移除。這個處理程序可限制資料樣本不必要的成長。

您可以在畫面右側啟動新的資料集取樣工作。詳情請參閱樣本面板

清理

資料清理工作可以解決資料品質問題,其大致分類如下:

  • 一致性。 值說明相同的事物應彼此一致。例如,數字值的精確度應該相同。字串值的結構應該一致,才能表示相同的事物。
  • 有效性。 值應限制為符合每個欄位的資料類型要求。例如,DateOfSale 欄位應為有效日期。
  • 可靠性。 相同欄位但不同記錄中的值應表示相同的事物。例如,兩個不同記錄中「溫度」欄位的 15 值不應在其中一個記錄中代表攝氏度數,卻在另一記錄中代表華氏度數。

一開始匯入資料時,會含有最終輸出並不需要的多個資料欄、資料列或特定值。具體而言,這個階段包含下列基本活動:

  • 移除未使用的資料欄
  • 處理遺漏和不相符的資料
  • 變更資料類型
  • 提高資料的一致性、有效性與可靠性

第一方案步驟:

資料集樣本首次載入至「Transformer」(轉換器) 頁面時,Cloud Dataprep by TRIFACTA 會嘗試分割非結構化資料,以形成標準的表格式資料。如果資料似乎含有標頭列,則可用於資料欄標題。

圖:轉換器頁面

上圖中,在建立表格格式資料結構時,雖然套用了部分初始剖析步驟,但這些步驟並不會加入方案中成為正式步驟,而是會影藏在方案檢視中。

  • 根據預設,當您允許應用程式偵測匯入資料的結構時,這些步驟會自動加入方案。
  • 您可以根據需要,在需要編輯或移除這些步驟時啟用這些步驟的瀏覽權限。
  • 詳情請參閱初始剖析步驟

從這些初始轉換產生的資料會顯示在資料格線中。請參閱資料格線面板

  • 您的方案會顯示在右側的「方案」面板中。您可能必須開啟此面板才能查看方案。請參閱方案面板
  • 當您在資料格線中選取項目時,系統會顯示建議資訊卡,以便您開始建構轉換步驟。請參閱建議資訊卡面板
  • 您可以在轉換製作工具中修改這些建議,以建構更複雜或更精良的指令。請參閱轉換製作工具
  • 請別忘記使用「Transformer」(轉換器) 工具列,其中可利用有效轉換的必要設定,預先設定「Transform Builder」(轉換製作工具)。請參閱轉換器工具列
  • 您可使用資料欄內容選單,針對個別資料欄套用變更。請參閱資料欄選單一文。

使用資料列來建立標頭:

在大部分情況下,資料欄的名稱可以從資料集的第一列資料推測出來。如果您需要指定不同資料列,請完成下列步驟:

  1. 按下選單列的「Search」(搜尋) 圖示。

  2. 請在「Search」(搜尋) 面板文字方塊輸入:header

  3. 轉換將在「Transform Builder」(轉換製作工具) 中顯示。請指定下列屬性:
    轉換名稱 Rename columns
    參數:選項 Use row as header
    參數:資料列 1
  4. 如果您需要指定使用不同資料列,可以在「Row」(資料列) 文字方塊指定要使用的特定資料列。
  5. 如需在方案新增此項轉換或任何開發中轉換,請按 [Add] (新增)。如果這個步驟無效,則會停用這個按鈕。

產生中繼資料:

在資料格線的左側,您可能會注意到了一組黑點。如果您將滑鼠游標懸停在其中一個黑點上,就會列出來源資料中的原始資料列編號。由於資料轉換處理程序會變更資料列數或其順序,因此您可能會想要保留資料列的原始順序。

提示:某些作業 (如聯集和彙整) 可能會使來源資料列號碼資訊無效。如要將此資料擷取到資料集中,最好在方案中提早新增此轉換。

如要在名為 rowId 的資料欄保留原始資料列數,請完成下列步驟:

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 $sourcerownumber
參數:新資料欄名稱 rowId

您可以使用類似的轉換為檔案型的來源產生完整路徑和檔案名稱:

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 $filepath
參數:新資料欄名稱 filepath

詳情請參閱插入中繼資料

刪除未使用的資料欄:

資料可能含有您不需要的資料欄,所以可以將其移除以簡化資料集。如要刪除資料欄,請按一下資料欄標題旁邊的脫字符號,然後選取 [Delete] (刪除)

提示:如果您不確定是否要刪除資料欄,可以使用相同的脫字符號選單暫時隱藏資料欄。隱藏的資料欄還是會出現在輸出中。

提示:您也可以刪除資料欄範圍。請參閱移除資料

檢查資料欄資料類型:

匯入資料集時,Cloud Dataprep by TRIFACTA 會嘗試由資料欄的第一組資料列,識別資料欄的資料類型。不過有時候類型推論可能並不正確。

提示:開始根據不相符的值對資料執行轉換之前,請檢查這些資料欄的資料類型,確保資料類型都正確無誤。詳情請參閱支援的資料類型

詳情請參閱變更資料欄資料類型

只顯示想要的資料欄:

您可以選擇要在資料格線中顯示哪些資料欄,這樣有助於將焦點縮小到有問題的區域。

在畫面底部的狀態列中,請按一下眼睛圖示。

詳情請參閱可見的資料欄面板一文。

查看資料品質:

移除不使用的資料後,您可以檢查資料欄標題正下方每個資料欄的資料品質。

圖:資料欄標頭與資料品質長條圖

水平長條稱為資料品質長條圖,按下列顏色識別資料欄中的資料品質:

顏色說明
綠色這些值對資料欄資料類型而言有效。
紅色這些值不符合資料欄類型的值。
黑色資料欄的這些列中沒有任何值。

提示:當您在資料品質長條圖中選取值時,系統會在樣本資料列中醒目顯示這些值,並在畫面底端的建議資訊卡中顯示處理選取列的建議。

詳情請參閱資料品質長條圖

建議資訊卡:

根據您的選擇和常見資料模式的知識,Cloud Dataprep by TRIFACTA 會提示您建議的轉換。然後,您可以在轉換器頁面的右側面板中選擇預先設定的轉換,以快速新增步驟。

提示:如果可能,您應選取資料並選取適當的建議資訊卡,試著建立您的轉換步驟。在某些情況下,您可能需要修改方案的詳細資料。

在下列範例中,已選取 SUBSCRIBER_AGE 資料欄中的遺漏值,並顯示一組建議資訊卡。

圖:選取遺漏值

提示:預覽方案步驟時,您可以使用狀態列的核取方塊,僅顯示受到影響的資料列及/或資料欄,這樣有助您評估步驟的執行效果。

依據資料性質,您可以保留、刪除或修改值。因為資料遺漏,所以選取了「Delete」(刪除) 資訊卡。

  • 若要接受此項建議,請按 [Add] (新增)
  • 您可以視需要修改步驟。稍後會提供相關範例。

詳情請參閱探索建議內容

如需瞭解更多背景資訊,請參閱可預測的轉換總覽

變更資料類型:

如果資料欄所含的不相符資料 (紅色) 比例過高,則該資料欄可能被識別成錯誤的資料類型。例如,資料集所含的內部 ID 主要是數字資料 (例如,10000022),但偶爾會在某些值中出現字母字元 (例如,1000002A)。此資料的資料欄類型可能設為整數值,但其實應該將它視為字串值。如要進一步瞭解可用類型,請參閱支援的資料類型

提示:如果可能,您應將每個資料欄的資料類型設為適當類型。Cloud Dataprep by TRIFACTA 可維護統計資訊,並依據資料類型啟用部分轉換步驟。請參閱資料欄統計參考資料

  1. 如要變更資料欄的資料類型,請按一下資料欄標題左側的圖示。
  2. 選取新的資料類型。
  3. 查看資料欄的不相符值,驗證是否已捨棄這些值的計數。

詳情請參閱變更資料欄資料類型

探索資料欄詳細資料:

根據需要,您可以探索有關資料欄資料的詳細資料,包括離群值等統計資訊。

查看直方圖:

在資料欄資料品質長條圖的正下方,您可以查看該資料欄中值的直方圖。在下列範例中,左側的資料直方圖適用於 ZIP 資料欄,而右側的直方圖適用於 WEB_CHAT_ID 資料欄。

圖:資料欄資料直方圖

將滑鼠游標移到直方圖的類別上時,您可以看到對應的值、樣本資料欄中的例項計數,以及受影響資料列的百分比。在左側的直方圖中,已選取例項數最高的長條,21202 值在資料集中出現了 506 次 (21.28%)。在右側的直方圖中,顏色最深的陰影表示含有 ZIP=21202 的資料列如何對應至 WEB_CHAT_ID 資料欄中的值。

提示:與資料品質長條圖類似,您可以在資料直方圖中按一下值,以醒目顯示受影響的資料列並觸發一組建議。透過此方式,您可以使用相同的資料品質工具,將更細緻的變更套用至資料欄中的個別值。

如需清理資料的一般工作清單,請參閱清理工作一文。

修改

執行資料的初始清理作業後,您可能需要修改資料、設定適用於目標系統的正確格式、指定適當的匯總層級或進行其他修改。

提示:修改步驟通常是專門針對下游的資料用途而提出。如果來源資料集必須滿足多種下游用途,您可能需要進行修改以滿足每一種用途,但用途彼此間會發生衝突,所以比較容易的作法是先進行清理、為方案物件建立參照,然後在每個流程匯入參照資料集進行進一步修改。詳情請參閱流程檢視頁面

在下列範例中,選取了不適當的大寫字體 BALTIMORE 單字,讓您可以將它變更為大小寫適當的拼字 (Baltimore)。在列資料中會醒目顯示含有該單字的資料列,並在畫面底端的資訊卡中提供一組如何修正的建議。請參閱建議資訊卡面板

圖:選取要修改的值

依據資料性質,您可以保留或變更值,或將有問題的資料列全部移除。

提示:選取其中一個建議資訊卡時,可以在轉換頁面預覽隱含的變更,以便您查看變更的效果。這個預覽功能可讓您在正式套用變更之前,先行查看和修改變更。因為來源資料不變,所以您隨時都可以移除不正確的轉換步驟,或甚至重新執行方案以產生一組正確的結果。詳情請參閱轉換預覽

在這種情況下,請選擇「Replace」(取代) 轉換。但系統提供的建議有一些小小的問題。

  • 因為平台並不瞭解所選內容的意義,所以一開始可能會建議連同文字一起移除。在此情況下,您需要變更拼寫。
  • 在轉換期間,「Find」(尋找) 參數值含有用於識別選擇的模式。在此情況下,系統會選取所有大寫字體的值。但現在,您只想修改 BALTIMORE

所以,您必須變更此轉換的某些部分。按一下 [編輯]

「Transform Builder」(轉換製作工具):

您修改轉換步驟時,可於「Transform Builder」(轉換製作工具) 進行變更;「Transform Builder」(轉換製作工具) 是簡易的選單導向介面,用於修改轉換:

圖:在「Transform Builder」(轉換製作工具) 中修改步驟

在轉換製作工具中,您可以將模式取代為要尋找的特定字串:BALTIMORE。新值 (目前空白) 可以填入替換值:Baltimore。按一下 [Add] (新增)

步驟已新增至方案,並自動套用至「Transformer」(轉換器) 頁面顯示的資料樣本。詳情請參閱轉換製作工具

請參閱清理工作

擴充

將資料傳送到目標系統之前,您可能需要使用新資料欄或其他資料集的值來強化或擴增資料集。

聯集資料集:

您可以將相同結構的資料集附加至目前載入的資料集,以擴增資料量。例如,您可以將每日記錄資料以字串連結在一起,以建構數週的日誌資訊。請參閱附加資料集

彙整資料集:

您可以依據一組共同值,將兩個以上的資料集聯結在一起。例如,您要使用原始銷售資料來建構銷售佣金資料集:

  • 您的銷售交易資料集含有銷售人員 ID 資料欄,指出應收到佣金的員工。
  • 您可以將銷售交易資料集聯結至員工資料集,這樣就能按內部 ID 提供員工姓名和佣金比率的相關資訊。
  • 如果員工資料集沒有任何對應的記錄,就不會發出佣金獎勵,且銷售交易記錄也不應該出現在佣金資料集中。

這個佣金資料集的建立方式為:在銷售交易資料集和員工資料集之間執行內部聯結。在「Search」(搜尋) 面板中輸入 join。請參閱彙整資料集

查詢值:

在某些情況下,您可能需要在資料集中併入值或以其他資料集的其他資料欄來取代值。例如,交易資料可以按內部 ID 參照產品和客戶。您可以在主要資料集中建立查詢,以擷取使用者容易使用的客戶和產品 ID 版本。

注意:您用於查詢的參照資料,必須是 Cloud Dataprep by TRIFACTA 中優先載入的資料集。

如要查詢值的資料欄,請按一下資料欄標題旁的脫字符號下拉式選單,然後選取 [Lookup...] (查詢)。請參閱查詢精靈

如需強化資料集的一般工作流程清單,請參閱充實工作

剖析

在轉換處理程序中,您可以產生和查看個別資料欄和整個資料集的視覺化剖析。這些互動式剖析對於識別資料的異常、離群組和其他問題,大有助益。詳情請參閱剖析基本資訊


本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁