将记录发送到错误

本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时,如何从数据集中移除常见错误。

数据集中会出现以下类型的错误:

  • 系统性错误,例如服务或实例故障
  • 逻辑错误,例如流水线运行失败
  • 数据错误,例如信用卡号无效、日期格式无效或邮政编码无效

Wrangler 提供了一组超过 50 条指令,可帮助您从数据集中移除常见错误。

如需将记录发送到“错误”类别,请按以下步骤操作:

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作区
  2. 数据标签页中,找到列名称,然后点击 arrow_drop_down 展开箭头。
  3. 选择发送到“错误”,然后选择将错误记录发送到“错误”的条件。

Wrangler 会从示例中移除与指定条件匹配的值,并将 send to error 指令添加到食谱中。运行数据流水线时,系统会将转换应用于该列中的所有值。

向数据流水线添加错误收集器插件

将包含 send to error 指令的配方中的 Wrangler 转换添加到数据流水线时,您可以选择将其连接到 Error Collector 插件。错误收集器插件通常连接到下游接收器插件,例如 BigQuery 接收器。

运行流水线时,由 send to error 指令标记的记录会从流水线中的 Wrangler 转换步骤进入“错误收集器”步骤,然后进入“接收器”步骤。运行完成后,您可以检查写入到接收器的已标记记录。

如果您的食谱包含 send to error 转换,但流水线不包含 Error Collector 插件,则在流水线运行期间,由 send to error 指令标记的记录会被丢弃。

后续步骤