此页面由 Cloud Translation API 翻译。

从字段中提取数据

本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时，如何从字段（单元格）中提取和转换数据。

如需对这些数据执行转换，您需要将其拆分为单独的列。在 Wrangler 中，您可以从列中提取数据并创建新的列。您可以根据模式提取值，分隔符或位置。

使用模式提取数据

您可以使用以下格式：

如需根据模式提取数据，请按以下步骤操作：

Wrangler 会根据所选模式提取字段，并将 extract-regex-groups 指令添加到食谱中。运行数据流水线时 Cloud Data Fusion 会将转换应用于列中的所有行。

在以下示例中，一列包含一个数字，后跟一个电子邮件地址：

电子邮件
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

如需提取电子邮件地址，请选择电子邮件格式。点击提取，Wrangler 将保留原始列并创建新列仅包含电子邮件地址：

电子邮件	Emails_1
1 222larabrown@gmail.com	222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com	cloudysanfrancisco@gmail.com

您可以根据以下内容将数据提取到两列或更多列中分隔符：

如果值没有分隔符，系统不会向相应字段添加任何值在新列中。

若要根据分隔符提取值，请执行以下操作：

Wrangler 根据所选的分隔符提取字段，并将 split-to-columns 指令添加到配方中。运行数据流水线时 Cloud Data Fusion 会转换列中的所有值。

在以下示例中，一列包含多个名称（以英文逗号分隔）：

ID	名称
1	Lee、Lucian、Luka
2	Mahan、Noam、Nur

在此示例中，使用逗号分隔符模式将提取原来的 Name 列变为三个新列：

ID	名称	Name_1	Name_2	Name_3
1	Lee、Lucian、Luka	Lee	卢西亚语	Luka
2	Mahan、Noam、Nur	马汉	Noam	Nur

您可以根据字符串在字符串中的位置提取字符串的一部分。

如需根据数据的位置提取数据，请执行以下操作：

值的选定部分将从列中的每一行中提取。

Wrangler 会根据所选模式提取字段，并将 cut-character 指令添加到食谱中。运行数据流水线时 Cloud Data Fusion 会将转换应用于列中的所有值。