Wrangler 概览

Wrangler 是 Cloud Data Fusion Studio 界面中的一个可视化数据准备工具。您可以在提取、转换和加载 (ETL) 流水线中使用数据之前,对其进行清理和转换。Wrangler 会先在一处(称为预览)对数据的一部分应用转换,然后再对整个数据集运行逻辑。此预览可帮助您应用转换,并了解转换对整个数据集的影响。

Wrangler 指令

指令是 Wrangler 中使用的单个指令。指令用于指定如何处理数据,例如转换、过滤或汇总单个记录。

以下概念与指令相关:

配方
配方是一组指令。它由一个或多个指令组成。
转换步骤
转换步骤是数据转换指令的实现,用于对单个记录或一组记录进行操作。转换步骤可以通过应用指令生成零条或多条记录。Wrangler 会按照配方中列出的顺序应用转换步骤。

Wrangler 组件

以下部分介绍了 Cloud Data Fusion Studio 中 Wrangler 的组件。

Wrangler 工作区

Wrangler 工作区是 Cloud Data Fusion Studio 界面中的一页,您可以在其中解析、混合、清理和转换数据集。在工作区页面上,您可以执行以下操作:

  • 使用各列中的下拉菜单,将转换步骤添加到配方中。
  • 选择转换步骤标签页,查看或删除配方中的步骤。
  • 查看数据质量栏,了解包含空白字段和其他信息的列。
  • 点击更多可查看数据集的架构。
  • 使用数据集的源插件创建数据流水线,并使用包含转换步骤(在流水线运行时执行)的配方创建 Wrangler 转换。

Wrangler 功耗模式 (CLI)

如需使用声明式语法指定指令,请使用“高级模式”(CLI)。它对于以下任务非常有用:

  • 使用 Studio 界面中不提供的指令
  • 添加用户定义的指令
  • 将指令应用于多个列

如需使用 Wrangler 功耗模式,请在 Wrangler Data(数据)标签页底部的黑色栏中输入指令。

Wrangler“数据分析”标签页

您可以使用 Wrangler 页面上的数据分析标签页对数据集执行数据发现。

限制

  • Wrangler 仅适用于批处理 ETL 流水线。
  • Wrangler 仅对样本数据应用转换。此示例数据仅限前 1,000 条记录。
  • Wrangler 需要与源代码创建连接。如需了解详情,请参阅创建和管理连接
  • Wrangler 始终需要至少打开一个 Wrangler 工作区。
  • 不支持在 Wrangler 转换中点击 Wrangle 按钮。

您可以通过以下两种方式从 Cloud Data Fusion Studio 界面访问 Wrangler:

  • 如需打开 Cloud Data Fusion Wrangler 工作区,请前往 Cloud Data Fusion Studio,然后点击 Wrangler
  • 如需配置 Wrangler 属性,请前往 Cloud Data Fusion Studio,然后依次点击 Studio > 转换 > Wrangler

连接到数据源

Wrangler 支持各种数据源,例如 BigQuery、Cloud Storage 和外部数据库(需要进行额外配置)。如需使用 Wrangler,您必须与来源建立连接。

如需创建连接,请前往连接列表,然后选择与数据源的连接。如需了解详情,请参阅创建和管理连接

探索和预览数据

Wrangler 会显示数据的一部分(通常为 1,000 行)以供检查。您可以大致了解数据架构,包括数据类型和基本统计信息。

应用指令

Wrangler 提供了各种内置指令,用于执行常见的数据处理任务。

  • 将所选指令拖动到特定列或数据预览窗口。
  • 每个指令都有配置选项,可用于自定义其行为。

如需了解详情,请参阅 Wrangler 命令行指令

预览转换结果

当您应用指令时,数据预览窗口会动态更新以反映所做更改。这样,您就可以查看每种转换对数据的直接影响。

优化和迭代

如需优化数据处理流程,请继续添加指令、修改配置并查看预览。

Wrangler 的直观界面可帮助您进行实验,确保转换能产生预期结果。

向流水线添加转换

虽然 Wrangler 本身不是永久性存储解决方案,但 Cloud Data Fusion 提供了一些方法来捕获整理逻辑:

  • 创建流水线。在 Wrangler 工作区中,按照以下步骤将 Wrangler 转换转换为 Cloud Data Fusion 流水线:

    1. 点击创建流水线
    2. 选择批处理流水线。系统会打开 Pipeline Studio 页面,其中包含包含源和 Wrangler 转换的流水线。
  • 应用转换。如果您在 Studio 页面上使用 Wrangler 插件,请点击应用将 Wrangler 转换转换为 Cloud Data Fusion 流水线。

修改食谱

使用 Wrangler 工作区创建 Wrangler 转换后,建议您将 Wrangler 转换添加到流水线,然后使用 Wrangler 界面添加或修改食谱。

在 Wrangler 转换中,如果您手动修改配方或向配方添加新步骤,并且这些更改会影响输出架构,则必须手动更新 Wrangler 转换中的输出架构,以使其与配方中的更改保持一致。只有在 Wrangler 工作区中创建或修改的配方才会在 Wrangler 转换中自动创建和自动更新输出架构。

如需在 Wrangler 网页界面中创建的 Wrangler 转换中修改食谱,请按以下步骤操作:

  1. 前往流水线中的 Wrangler 节点,然后点击属性
  2. 点击 Wrangler
  3. 修改或添加新食谱。
  4. 点击应用

后续步骤