本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时,如何从字段(单元格)中提取和转换数据。
如需对这些数据执行转换,您需要将其拆分为单独的列。在 Wrangler 中,您可以从列中提取数据并创建新的 列。您可以根据模式提取值, 分隔符或位置。
使用模式提取数据
您可以使用 以下格式:
- 信用卡
- 日期
- 日期时间
- 电子邮件
- HTML 锚点中的网址
- IPv4 地址
- ISBN 代码
- MAC 地址
- N 位数字
- SSN
- 开始和结束图案
- 时间
如需根据模式提取数据,请按以下步骤操作:
- 转到 Cloud Data Fusion 中的 Wrangler 工作区。
- 在数据标签页中,找到列名称,然后点击 arrow_drop_down 展开箭头。
- 依次选择提取字段 > 使用模式,然后选择 选项(例如 网址)。
- 可选:点击显示格式以查看 模式。
- 点击提取。
Wrangler 会根据所选模式提取字段,并将 extract-regex-groups
指令添加到食谱中。运行数据流水线时
Cloud Data Fusion 会将转换应用于列中的所有行。
在以下示例中,一列包含一个数字,后跟一个电子邮件地址:
电子邮件 |
---|
1 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com |
如需提取电子邮件地址,请选择电子邮件格式。点击 提取,Wrangler 将保留原始列并创建新列 仅包含电子邮件地址:
电子邮件 | Emails_1 |
---|---|
1 222larabrown@gmail.com | 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com | cloudysanfrancisco@gmail.com |
提取带分隔符的数据
您可以根据以下内容将数据提取到两列或更多列中 分隔符:
- 英文逗号
- Tab
- 竖线符
- 空格符
- 自定义分隔符
如果值没有分隔符,系统不会向相应字段添加任何值 在新列中。
若要根据分隔符提取值,请执行以下操作:
- 转到 Cloud Data Fusion 中的 Wrangler 工作区。
- 在数据标签页上,转到列名称,然后点击 arrow_drop_down 展开箭头。
- 依次选择提取字段 > 使用分隔符,然后选择 选项,例如 Comma。
- 点击提取。
Wrangler 根据所选的分隔符提取字段,并将
split-to-columns
指令添加到配方中。运行数据流水线时
Cloud Data Fusion 会转换列中的所有值。
在以下示例中,一列包含多个名称(以英文逗号分隔):
ID | 名称 |
---|---|
1 | Lee、Lucian、Luka |
2 | Mahan、Noam、Nur |
在此示例中,使用逗号分隔符模式将提取
原来的 Name
列变为三个新列:
ID | 名称 | Name_1 | Name_2 | Name_3 |
---|---|---|---|---|
1 | Lee、Lucian、Luka | Lee | 卢西亚语 | Luka |
2 | Mahan、Noam、Nur | 马汉 | Noam | Nur |
按位置提取数据
您可以根据字符串在字符串中的位置提取字符串的一部分。
如需根据数据的位置提取数据,请执行以下操作:
- 前往 Cloud Data Fusion 中的 Wrangler 工作区。
- 在数据标签页上,转到列名称,然后点击 arrow_drop_down 展开箭头。
- 依次选择提取字段 > 使用位置。您可以提取的列值以蓝色背景显示。
- 在列的任意单元格中,选择要提取的字符。
- 在目标列的名称字段中,输入名称。
- 点击应用。
值的选定部分将从列中的每一行中提取。
Wrangler 会根据所选模式提取字段,并将 cut-character
指令添加到食谱中。运行数据流水线时
Cloud Data Fusion 会将转换应用于列中的所有值。
后续步骤
- 详细了解 Wrangler 指令。