從欄位中分解資料

本頁面說明如何在 Cloud Data Fusion Studio 的 Wrangler 工作區中準備資料時,將欄位 (單元格) 中的資料分成多個資料列。

分隔符號文字

如果值是由下列分隔符號分隔,您可以將儲存格中的值分隔成新的資料列:

  • 半形逗號
  • Tab 鍵
  • 管線符號
  • 空白字元
  • 自訂分隔符

如果儲存格不含所選分隔符號,系統就不會插入新資料列。

如要依據分隔符號分割值,請按照下列步驟操作:

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作區
  2. 在「資料」分頁中,前往所需欄名,然後按一下展開箭頭 arrow_drop_down
  3. 依序點選「分割」>「以分隔符號分隔的文字」
  4. 選擇分隔符號,例如「Pipe」
  5. 按一下「解壓縮」

Wrangler 會根據所選分隔符號將欄位分割,並將 split-to-row 指令加入至食譜中。執行資料管道時,Cloud Data Fusion 會將轉換套用至資料欄中的所有值。

在本例中,資料集包含一個字串值資料欄,其中含有逗號分隔符:

ID 名稱
1 Lee、Lucian、Luka
2 Mahan,Noam

為了將值分割成不同的資料列,Wrangler 會刪除原始資料欄,並建立新資料欄,讓每個值對應一個資料列。原始資料列的其他欄值會複製到新資料列中:

ID Name_1
1 Lee
1 Lucian
1 Luka
2 馬哈恩
2 Noam

分開陣列

flatten 指令會將陣列中的項目 (例如 ["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"]) 分隔為新的資料列。原始記錄中的其他資料欄值會複製到新記錄中。

後續步驟