从字段中展开数据

本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时,如何将某个字段(单元格)中的数据拆分到多行。

分隔的文本

如果单元格中的值由以下分隔符分隔,您可以将这些值分隔到新行中:

  • 英文逗号
  • Tab
  • 竖线符
  • 空格符
  • 自定义分隔符

如果单元格不包含所选的分隔符,则不会插入新行。

如需根据分隔符拆分值,请按以下步骤操作:

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作区
  2. 数据标签页中,找到列名称,然后点击 arrow_drop_down 展开箭头。
  3. 依次点击展开 > 分隔文本
  4. 选择分隔符,例如英文竖线
  5. 点击提取

Wrangler 会根据所选分隔符拆分字段,并将 split-to-row 指令添加到食谱中。当您运行数据流水线时,Cloud Data Fusion 会将转换应用于该列中的所有值。

在此示例中,数据集包含一个包含英文逗号分隔符的字符串值列:

ID 名称
1 Lee,Lucian,Luka
2 Mahan,Noam

为了将值拆分到单独的行中,Wrangler 会删除原始列,并创建一个新列,其中每个值对应一行。原始行的其他列值会复制到新行中:

ID Name_1
1 Lee
1 Lucian
1 Luka
2 Mahan
2 Noam

单独的数组

flatten 指令会将数组(例如 ["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"])中的项分隔到新行中。原始记录中的其他列值会复制到新记录中。

后续步骤