本頁面說明如何在 Cloud Data Fusion Studio 的 Wrangler 工作區中準備資料時,將欄位 (單元格) 中的資料分成多個資料列。
分隔符號文字
如果值是由下列分隔符號分隔,您可以將儲存格中的值分隔成新的資料列:
- 半形逗號
- Tab 鍵
- 管線符號
- 空白字元
- 自訂分隔符
如果儲存格不含所選分隔符號,系統就不會插入新資料列。
如要依據分隔符號分割值,請按照下列步驟操作:
- 前往 Cloud Data Fusion 中的 Wrangler 工作區。
- 在「資料」分頁中,前往所需欄名,然後按一下展開箭頭 arrow_drop_down。
- 依序點選「分割」>「以分隔符號分隔的文字」。
- 選擇分隔符號,例如「Pipe」。
按一下「解壓縮」。
Wrangler 會根據所選分隔符號將欄位分割,並將 split-to-row
指令加入至食譜中。執行資料管道時,Cloud Data Fusion 會將轉換套用至資料欄中的所有值。
在本例中,資料集包含一個字串值資料欄,其中含有逗號分隔符:
ID | 名稱 |
---|---|
1 | Lee、Lucian、Luka |
2 | Mahan,Noam |
為了將值分割成不同的資料列,Wrangler 會刪除原始資料欄,並建立新資料欄,讓每個值對應一個資料列。原始資料列的其他欄值會複製到新資料列中:
ID | Name_1 |
---|---|
1 | Lee |
1 | Lucian |
1 | Luka |
2 | 馬哈恩 |
2 | Noam |
分開陣列
flatten
指令會將陣列中的項目 (例如 ["ELEMENT_1",
"ELEMENT_2", "ELEMENT_3"]
) 分隔為新的資料列。原始記錄中的其他資料欄值會複製到新記錄中。
後續步驟
- 進一步瞭解 Wrangler 指令。