Wrangler 簡介

Wrangler 是 Cloud Data Fusion Studio 介面中的視覺化資料準備工具。您可以在擷取、轉換、載入 (ETL) 管道中使用資料前,先清理及轉換資料。Wrangler 會在同一個位置對資料樣本套用轉換作業 (稱為「預覽」),然後再針對整個資料集執行邏輯。這項預覽功能可協助您套用轉換,並瞭解轉換對整個資料集的影響。

Wrangler 指令

指令是 Wrangler 中使用的單一指示。指令可指定資料的操作方式,例如轉換、篩選或樞紐分析個別記錄。

下列概念與指令相關:

方案
食譜是一組指令。其中包含一或多個指示。
轉換步驟
轉換步驟是資料轉換指令的實作項目,可對單一記錄或一組記錄進行運算。轉換步驟可透過套用指令產生零或多筆記錄。Wrangler 會按照方案中列出的順序套用轉換步驟。

Wrangler 元件

以下各節將說明 Cloud Data Fusion Studio 中的 Wrangler 元件。

Wrangler 工作區

Wrangler 工作區是 Cloud Data Fusion Studio 介面中的頁面,可用於剖析、混合、清理及轉換資料集。您可以在「工作區」頁面中執行下列操作:

  • 使用每個資料欄的下拉式選單,將轉換步驟加入方案。
  • 選取「轉換步驟」分頁標籤,即可查看或刪除方案中的步驟。
  • 查看「資料品質」長條圖,找出含有空白欄位和其他資訊的資料欄。
  • 按一下「更多」,即可查看資料集的結構定義。
  • 建立資料管道,其中包含資料集的來源外掛程式,以及 Wrangler 轉換作業,其中包含含有轉換步驟的食譜,這些步驟會在管道執行時執行。

Wrangler 電源模式 (CLI)

如要使用宣告式語法指定指令,請使用 Power Mode (CLI)。以下列工作來說,這項功能會相當實用:

  • 使用 Studio 介面中不支援的指令
  • 新增使用者定義指示
  • 將指示套用至多個資料欄

如要使用 Wrangler 效能模式,請在 Wrangler 的「Data」分頁底部的黑色列中輸入指令。

Wrangler「洞察」分頁

您可以使用 Wrangler 頁面中的「Insights」分頁標籤,針對資料集執行資料探索作業。

限制

  • Wrangler 僅支援批次 ETL 管道。
  • Wrangler 只會對樣本資料套用轉換。此範例資料僅限於前 1000 筆記錄。
  • Wrangler 需要與來源建立連線。詳情請參閱「建立及管理連線」。
  • Wrangler 一律需要至少一個開放式 Wrangler 工作區。
  • 系統不支援在 Wrangler 轉換中按一下 Wrangle 按鈕。

您可以透過兩種方式,從 Cloud Data Fusion Studio 介面存取 Wrangler:

  • 如要開啟 Cloud Data Fusion Wrangler 工作區,請前往 Cloud Data Fusion Studio,然後按一下「Wrangler」
  • 如要設定 Wrangler 屬性,請前往 Cloud Data Fusion Studio,然後依序點選「Studio」> 「Transformations」>「Wrangler」

連結至資料來源

Wrangler 支援各種資料來源,例如 BigQuery、Cloud Storage 和外部資料庫 (需額外設定)。如要使用 Wrangler,您必須建立與來源的連線。

如要建立連線,請前往「連線」清單,然後選取資料來源的連線。詳情請參閱「建立及管理連線」。

探索及預覽資料

Wrangler 會顯示資料的樣本 (通常為 1000 列) 供您檢查。您可以查看資料結構的概略資訊,包括資料類型和基本統計資料。

套用指令

Wrangler 提供各種內建指令,可用於常見的資料整理工作。

  • 將所選指令拖曳至特定資料欄或資料預覽視窗。
  • 每個指令都有設定選項,可自訂行為。

詳情請參閱「Wrangler 指令列指示語」。

預覽轉換結果

套用指令時,資料預覽視窗會動態更新,反映變更。這樣一來,您就能立即查看每個轉換作業對資料的影響。

調整並重複執行

如要改善資料整理程序,請繼續新增指示、修改設定,並查看預覽畫面。

Wrangler 的視覺化介面可協助您進行實驗,確保轉換作業可產生預期的結果。

在管道中新增轉換

雖然 Wrangler 本身並非持久性儲存空間解決方案,但 Cloud Data Fusion 提供多種方式,可擷取整理邏輯:

  • 建立管道。請按照下列步驟,從 Wrangler 工作區將 Wrangler 轉換作業轉換為 Cloud Data Fusion 管道:

    1. 按一下「建立管道」
    2. 選取「Batch pipeline」(批次管道)。「Pipeline Studio」頁面隨即開啟,其中包含含有來源和 Wrangler 轉換的管道。
  • 套用轉換。如果您在「Studio」頁面上使用 Wrangler 外掛程式,請按一下「Apply」,將 Wrangler 轉換轉換為 Cloud Data Fusion 管道。

編輯食譜

使用 Wrangler 工作區建立 Wrangler 轉換作業時,建議您在將 Wrangler 轉換作業新增至管道後,使用 Wrangler 介面新增或編輯食譜。

在 Wrangler 轉換作業中,如果您手動編輯食譜或新增食譜的新步驟,且這些變更會影響輸出架構,則必須手動更新 Wrangler 轉換作業中的輸出架構,以符合食譜中的變更。只有在 Wrangler 工作區中建立或編輯的食譜,才會在 Wrangler 轉換中自動建立及自動更新輸出結構定義。

如要在 Wrangler 轉換中編輯在 Wrangler 網頁介面中建立的食譜,請按照下列步驟操作:

  1. 前往管道中的 Wrangler 節點,然後按一下「Properties」
  2. 按一下「Wrangle」
  3. 編輯或新增方案。
  4. 按一下 [套用]

後續步驟