本页面介绍了如何在准备数据集时移除数据集中的常见错误, 存储在 Cloud Data Fusion Studio 的 Wrangler 工作区中。
数据集中会出现以下类型的错误:
- 系统性错误,例如服务或实例故障
- 逻辑错误,例如流水线运行失败
- 数据错误,例如信用卡号无效、日期格式无效或 无效的邮政编码
Wrangler 提供了一组超过 50 条指令,可帮助您从数据集中移除常见错误。
如需将记录发送到错误,请按以下步骤操作:
- 转到 Cloud Data Fusion 中的 Wrangler 工作区。
- 在数据标签页上,转到列名称,然后点击 arrow_drop_down 展开箭头。
- 选择 Send to error,然后选择发送错误状态的条件 出错。
Wrangler 会从示例中移除与指定条件匹配的值,并将 send to error
指令添加到食谱中。运行数据流水线时,系统会将转换应用于该列中的所有值。
向数据流水线添加错误收集器插件
将包含 send to
error
指令的配方中的 Wrangler 转换添加到数据流水线时,您可以选择将其连接到 Error Collector 插件。Error Collector 插件通常连接到
下游接收器插件,例如 BigQuery 接收器。
运行流水线时,send to error
指令标记的记录
从流水线中的 Wrangler 转换步骤到错误收集器
再到接收器步骤。运行完成后,您可以查看
写入接收器的记录
如果您的配方包含 send to error
转换,但流水线
不包含 Error Collector 插件,则在流水线运行期间,系统会丢弃由 send to
error
指令标记的记录。
后续步骤
- 详细了解 Wrangler 指令。