Wrangler 是 Cloud Data Fusion Studio 介面中的視覺化資料準備工具。您可以在擷取、轉換、載入 (ETL) 管道中使用資料前,先清理及轉換資料。Wrangler 會在同一個位置對資料樣本套用轉換作業 (稱為「預覽」),然後再針對整個資料集執行邏輯。這項預覽功能可協助您套用轉換,並瞭解轉換對整個資料集的影響。
Wrangler 指令
指令是 Wrangler 中使用的單一指示。指令可指定資料的操作方式,例如轉換、篩選或樞紐分析個別記錄。
下列概念與指令相關:
- 方案
- 食譜是一組指令。其中包含一或多個指示。
- 轉換步驟
- 轉換步驟是資料轉換指令的實作項目,可對單一記錄或一組記錄進行運算。轉換步驟可透過套用指令產生零或多筆記錄。Wrangler 會按照方案中列出的順序套用轉換步驟。
Wrangler 元件
以下各節將說明 Cloud Data Fusion Studio 中的 Wrangler 元件。
Wrangler 工作區
Wrangler 工作區是 Cloud Data Fusion Studio 介面中的頁面,可用於剖析、混合、清理及轉換資料集。您可以在「工作區」頁面中執行下列操作:
- 使用每個資料欄的下拉式選單,將轉換步驟加入方案。
- 選取「轉換步驟」分頁標籤,即可查看或刪除方案中的步驟。
- 查看「資料品質」長條圖,找出含有空白欄位和其他資訊的資料欄。
- 按一下「更多」,即可查看資料集的結構定義。
- 建立資料管道,其中包含資料集的來源外掛程式,以及 Wrangler 轉換作業,其中包含含有轉換步驟的食譜,這些步驟會在管道執行時執行。
Wrangler 電源模式 (CLI)
如要使用宣告式語法指定指令,請使用 Power Mode (CLI)。以下列工作來說,這項功能會相當實用:
- 使用 Studio 介面中不支援的指令
- 新增使用者定義指示
- 將指示套用至多個資料欄
如要使用 Wrangler 效能模式,請在 Wrangler 的「Data」分頁底部的黑色列中輸入指令。
Wrangler「洞察」分頁
您可以使用 Wrangler 頁面中的「Insights」分頁標籤,針對資料集執行資料探索作業。
限制
- Wrangler 僅支援批次 ETL 管道。
- Wrangler 只會對樣本資料套用轉換。此範例資料僅限於前 1000 筆記錄。
- Wrangler 需要與來源建立連線。詳情請參閱「建立及管理連線」。
- Wrangler 一律需要至少一個開放式 Wrangler 工作區。
- 系統不支援在 Wrangler 轉換中按一下 Wrangle 按鈕。
前往 Cloud Data Fusion 中的 Wrangler
您可以透過兩種方式,從 Cloud Data Fusion Studio 介面存取 Wrangler:
- 如要開啟 Cloud Data Fusion Wrangler 工作區,請前往 Cloud Data Fusion Studio,然後按一下「Wrangler」。
- 如要設定 Wrangler 屬性,請前往 Cloud Data Fusion Studio,然後依序點選「Studio」> 「Transformations」>「Wrangler」。
連結至資料來源
Wrangler 支援各種資料來源,例如 BigQuery、Cloud Storage 和外部資料庫 (需額外設定)。如要使用 Wrangler,您必須建立與來源的連線。
如要建立連線,請前往「連線」清單,然後選取資料來源的連線。詳情請參閱「建立及管理連線」。
探索及預覽資料
Wrangler 會顯示資料的樣本 (通常為 1000 列) 供您檢查。您可以查看資料結構的概略資訊,包括資料類型和基本統計資料。
套用指令
Wrangler 提供各種內建指令,可用於常見的資料整理工作。
- 將所選指令拖曳至特定資料欄或資料預覽視窗。
- 每個指令都有設定選項,可自訂行為。
詳情請參閱「Wrangler 指令列指示語」。
預覽轉換結果
套用指令時,資料預覽視窗會動態更新,反映變更。這樣一來,您就能立即查看每個轉換作業對資料的影響。
調整並重複執行
如要改善資料整理程序,請繼續新增指示、修改設定,並查看預覽畫面。
Wrangler 的視覺化介面可協助您進行實驗,確保轉換作業可產生預期的結果。
在管道中新增轉換
雖然 Wrangler 本身並非持久性儲存空間解決方案,但 Cloud Data Fusion 提供多種方式,可擷取整理邏輯:
建立管道。請按照下列步驟,從 Wrangler 工作區將 Wrangler 轉換作業轉換為 Cloud Data Fusion 管道:
- 按一下「建立管道」。
- 選取「Batch pipeline」(批次管道)。「Pipeline Studio」頁面隨即開啟,其中包含含有來源和 Wrangler 轉換的管道。
套用轉換。如果您在「Studio」頁面上使用 Wrangler 外掛程式,請按一下「Apply」,將 Wrangler 轉換轉換為 Cloud Data Fusion 管道。
編輯食譜
使用 Wrangler 工作區建立 Wrangler 轉換作業時,建議您在將 Wrangler 轉換作業新增至管道後,使用 Wrangler 介面新增或編輯食譜。
在 Wrangler 轉換作業中,如果您手動編輯食譜或新增食譜的新步驟,且這些變更會影響輸出架構,則必須手動更新 Wrangler 轉換作業中的輸出架構,以符合食譜中的變更。只有在 Wrangler 工作區中建立或編輯的食譜,才會在 Wrangler 轉換中自動建立及自動更新輸出結構定義。
如要在 Wrangler 轉換中編輯在 Wrangler 網頁介面中建立的食譜,請按照下列步驟操作:
- 前往管道中的 Wrangler 節點,然後按一下「Properties」。
- 按一下「Wrangle」。
- 編輯或新增方案。
- 按一下 [套用]。
後續步驟
- 進一步瞭解 Wrangler CLI 指令。