本页面介绍了如何将一个字段(一个单元格)中的数据分成多个 在 Cloud Data Fusion 的 Wrangler 工作区中准备数据时创建行 Studio。
分隔的文本
您可以将单元格中的值拆分到新的行中,前提是值 由以下分隔符分隔:
- 英文逗号
- Tab
- 竖线符
- 空格符
- 自定义分隔符
如果单元格不包含所选的分隔符,则不会插入新行。
如需根据分隔符拆分值,请按以下步骤操作:
- 转到 Cloud Data Fusion 中的 Wrangler 工作区。
- 在数据标签页上,转到列名称,然后点击 arrow_drop_down 展开箭头。
- 点击展开 > 分隔的文本。
- 选择分隔符,例如英文竖线。
点击提取。
Wrangler 根据所选的分隔符拆分字段,并添加
split-to-row
指令添加到配方中。当您运行数据流水线时,Cloud Data Fusion 会将转换应用于该列中的所有值。
在此示例中,数据集有一列包含英文逗号的字符串值 定界符:
ID | 名称 |
---|---|
1 | Lee,Lucian,Luka |
2 | Mahan、Noam |
为了将值拆分到单独的行中,Wrangler 会删除原始列,并创建一个新列,其中每个值对应一行。原始行的其他列值会复制到新行中:
ID | Name_1 |
---|---|
1 | Lee |
1 | 卢西亚语 |
1 | Luka |
2 | 马汉 |
2 | Noam |
单独的数组
flatten
指令会将数组(例如 ["ELEMENT_1",
"ELEMENT_2", "ELEMENT_3"]
)中的项分隔到新行中。原始记录中的其他列值会复制到新记录中。
后续步骤
- 详细了解 Wrangler 指令。