本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时,如何将某个字段(单元格)中的数据拆分到多行。
分隔的文本
如果单元格中的值由以下分隔符分隔,您可以将这些值分隔到新行中:
- 英文逗号
- Tab
- 竖线符
- 空格符
- 自定义分隔符
如果单元格不包含所选的分隔符,则不会插入新行。
如需根据分隔符拆分值,请按以下步骤操作:
- 前往 Cloud Data Fusion 中的 Wrangler 工作区。
- 在数据标签页中,找到列名称,然后点击 arrow_drop_down 展开箭头。
- 依次点击展开 > 分隔文本。
- 选择分隔符,例如英文竖线。
点击提取。
Wrangler 会根据所选分隔符拆分字段,并将 split-to-row
指令添加到食谱中。当您运行数据流水线时,Cloud Data Fusion 会将转换应用于该列中的所有值。
在此示例中,数据集包含一个包含英文逗号分隔符的字符串值列:
ID | 名称 |
---|---|
1 | Lee,Lucian,Luka |
2 | Mahan,Noam |
为了将值拆分到单独的行中,Wrangler 会删除原始列,并创建一个新列,其中每个值对应一行。原始行的其他列值会复制到新行中:
ID | Name_1 |
---|---|
1 | Lee |
1 | Lucian |
1 | Luka |
2 | Mahan |
2 | Noam |
单独的数组
flatten
指令会将数组(例如 ["ELEMENT_1",
"ELEMENT_2", "ELEMENT_3"]
)中的项分隔到新行中。原始记录中的其他列值会复制到新记录中。
后续步骤
- 详细了解 Wrangler 指令。