从字段中提取数据

本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时,如何从字段(单元格)中提取和转换数据。

如需对这些数据执行转换,您需要将其拆分为单独的列。在 Wrangler 中,您可以从列中提取数据并创建新的 列。您可以根据模式提取值, 分隔符或位置。

使用模式提取数据

您可以使用 以下格式:

  • 信用卡
  • 日期
  • 日期时间
  • 电子邮件
  • HTML 锚点中的网址
  • IPv4 地址
  • ISBN 代码
  • MAC 地址
  • N 位数字
  • SSN
  • 开始和结束图案
  • 时间

如需根据模式提取数据,请按以下步骤操作:

  1. 转到 Cloud Data Fusion 中的 Wrangler 工作区
  2. 数据标签页中,找到列名称,然后点击 arrow_drop_down 展开箭头。
  3. 依次选择提取字段 > 使用模式,然后选择 选项(例如 网址)。
  4. 可选:点击显示格式以查看 模式。
  5. 点击提取

Wrangler 会根据所选模式提取字段,并将 extract-regex-groups 指令添加到食谱中。运行数据流水线时 Cloud Data Fusion 会将转换应用于列中的所有行。

在以下示例中,一列包含一个数字,后跟一个电子邮件地址:

电子邮件
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

如需提取电子邮件地址,请选择电子邮件格式。点击 提取,Wrangler 将保留原始列并创建新列 仅包含电子邮件地址:

电子邮件 Emails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

提取带分隔符的数据

您可以根据以下内容将数据提取到两列或更多列中 分隔符:

  • 英文逗号
  • Tab
  • 竖线符
  • 空格符
  • 自定义分隔符

如果值没有分隔符,系统不会向相应字段添加任何值 在新列中。

若要根据分隔符提取值,请执行以下操作:

  1. 转到 Cloud Data Fusion 中的 Wrangler 工作区
  2. 数据标签页上,转到列名称,然后点击 arrow_drop_down 展开箭头。
  3. 依次选择提取字段 > 使用分隔符,然后选择 选项,例如 Comma
  4. 点击提取

Wrangler 根据所选的分隔符提取字段,并将 split-to-columns 指令添加到配方中。运行数据流水线时 Cloud Data Fusion 会转换列中的所有值。

在以下示例中,一列包含多个名称(以英文逗号分隔):

ID 名称
1 Lee、Lucian、Luka
2 Mahan、Noam、Nur

在此示例中,使用逗号分隔符模式将提取 原来的 Name 列变为三个新列:

ID 名称 Name_1 Name_2 Name_3
1 Lee、Lucian、Luka Lee 卢西亚语 Luka
2 Mahan、Noam、Nur 马汉 Noam Nur

按位置提取数据

您可以根据字符串在字符串中的位置提取字符串的一部分。

如需根据数据的位置提取数据,请执行以下操作:

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作区
  2. 数据标签页上,转到列名称,然后点击 arrow_drop_down 展开箭头。
  3. 依次选择提取字段 > 使用位置。您可以提取的列值以蓝色背景显示。
  4. 在列的任意单元格中,选择要提取的字符。
  5. 目标列的名称字段中,输入名称。
  6. 点击应用

值的选定部分将从列中的每一行中提取。

Wrangler 会根据所选模式提取字段,并将 cut-character 指令添加到食谱中。运行数据流水线时 Cloud Data Fusion 会将转换应用于列中的所有值。

后续步骤