Wrangler 是 Cloud Data Fusion Studio 界面中的可视化数据准备工具。它让您可以先清理和转换数据,然后再在提取、转换和加载 (ETL) 流水线中使用这些数据。在对整个数据集运行逻辑之前,Wrangler 会在一个位置对数据样本应用转换(称为“预览”)。本预览版可帮助您应用转换并了解转换对整个数据集的影响。
Wrangler 指令
指令是指在 Wrangler 中使用的单个指令。指令指定如何处理数据,例如转换、过滤或透视各个记录。
以下概念与指令相关:
- 配方
- 一个配方是一组指令。它由一条或多条指令组成。
- 转换步骤
- 转换步骤是数据转换指令的实现,用于处理单个记录或一组记录。转换步骤可以通过应用指令生成零个或多个记录。Wrangler 按照配方中列出的顺序应用转换步骤。
Wrangler 组件
以下部分介绍了 Cloud Data Fusion Studio 中 Wrangler 的各个组件。
Wrangler 工作区
Wrangler 工作区是 Cloud Data Fusion Studio 界面中的一个页面,您可以在其中解析、混合、清理和转换数据集。在工作区页面上,您可以执行以下操作:
- 使用每列中的下拉菜单向配方添加转换步骤。
- 选择转换步骤标签页可查看或删除配方中的步骤。
- 通过查看数据质量栏,发现包含空白字段和其他信息的列。
- 点击更多可查看数据集的架构。
- 使用包含数据集的源插件来创建数据流水线,并通过包含转换步骤的配方(在流水线运行时执行)执行 Wrangler 转换。
Wrangler 电源模式 (CLI)
要使用声明式语法指定指令,请使用电源模式 (CLI)。这对于以下任务非常有用:
- 使用无法在 Studio 界面中提供的指令
- 添加用户定义的指令
- 将指令应用于多个列
如需使用 Wrangler 电源模式,请在 Wrangler 数据标签页底部的黑色栏中输入指令。
Wrangler“数据分析”标签页
您可以使用 Wrangler 页面上的数据分析标签页对数据集执行数据发现。
限制
- 只有批量 ETL 流水线支持 Wrangler。
- Wrangler 仅对示例数据应用转换。此示例数据只能显示前 1000 条记录。
- Wrangler 要求与来源建立连接。如需了解详情,请参阅创建和管理连接。
- Wrangler 始终要求至少有一个 Wrangler 工作区处于打开状态。
- 不支持在 Wrangler 转换中点击 Wrangle 按钮。
导航到 Cloud Data Fusion 中的 Wrangler
您可以通过 Cloud Data Fusion Studio 界面通过以下两种方式访问 Wrangler:
- 如需打开 Cloud Data Fusion Wrangler 工作区,请转到 Cloud Data Fusion Studio,然后点击 Wrangler。
- 如需配置 Wrangler 属性,请转到 Cloud Data Fusion Studio,然后依次点击 Studio > 转换 > Wrangler。
连接到数据源
Wrangler 支持各种数据源,例如 BigQuery、Cloud Storage 和外部数据库(需额外配置)。如需使用 Wrangler,您必须创建与来源的连接。
如需创建连接,请转到连接列表,然后选择与数据源的连接。如需了解详情,请参阅创建和管理连接。
探索和预览数据
Wrangler 会显示数据样本(通常为 1000 行)以供检查。您可以大致了解数据架构,包括数据类型和基本统计信息。
应用指令
Wrangler 为常见的数据整理任务提供了各种内置指令。
- 将选定的指令拖动到特定列或数据预览窗口中。
- 每个指令都有用于自定义其行为的配置选项。
如需了解详情,请参阅 Wrangler 命令行指令。
预览转换结果
应用指令时,数据预览窗口会动态更新以反映更改。这样,您就可以了解每项转换对数据的直接影响。
优化和迭代
如需优化数据整理过程,请继续添加指令、修改配置并查看预览。
Wrangler 的可视化界面可帮助您进行实验并确保转换产生预期结果。
向流水线添加转换
虽然 Wrangler 本身不是永久性存储解决方案,但 Cloud Data Fusion 提供了捕获整理逻辑的方法:
创建流水线。在 Wrangler 工作区中,按照以下步骤将 Wrangler 转换转换为 Cloud Data Fusion 流水线:
- 点击创建流水线。
- 选择批处理流水线。Pipeline Studio 页面将打开,其中包含一个包含来源和 Wrangler 转换的流水线。
应用转换。如果您使用的是 Studio 页面上的 Wrangler 插件,请点击应用,将 Wrangler 转换转换为 Cloud Data Fusion 流水线。
修改配方
使用 Wrangler 工作区创建 Wrangler 转换时,在将 Wrangler 转换添加到流水线后,建议您使用 Wrangler 接口添加或修改配方。
在 Wrangler 转换中,如果您手动修改配方或向配方添加新步骤,并且所做的更改会影响输出架构,则必须手动更新 Wrangler 转换中的输出架构以匹配配方中的更改。只有在 Wrangler 工作区中创建或修改的配方才会在 Wrangler 转换中自动创建和自动更新输出架构。
如需在 Wrangler 转换中修改在 Wrangler 网页界面中创建的配方,请按以下步骤操作:
- 转到流水线中的 Wrangler 节点,然后点击属性。
- 点击 Wrangler。
- 修改或添加新配方。
- 点击应用。
后续步骤
- 详细了解 Wrangler CLI 指令。