本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时如何进行过滤。在 Wrangler 中,您可以过滤出 任意数据类型(布尔值类型除外)列中的数据。您保留或移除 行。
如需根据条件保留或移除行,请按以下步骤操作:
- 转到 Cloud Data Fusion 中的 Wrangler 工作区。
- 在数据标签页上,转到列名称,然后点击 arrow_drop_down 展开箭头。
- 选择过滤,然后选择一个选项,例如保留行和如果 值包含。
- 指定条件。
- 点击应用。
这些值会根据过滤条件而变化。Wrangler 会将 filter-rows-on
指令添加到该配方中。运行数据流水线时,系统会将转换应用于该列中的值。
保留行
如果您选择根据条件保留行,系统会移除不符合条件的行。只有符合条件的行会保留在数据集中。例如,如果您选择值为并输入条件
Customer
,Wrangler 将保留包含字符串 Customer
的行并移除
带有其他值的行。
移除行
如果您选择根据条件移除行,系统会从数据集中移除符合条件的行。例如,如果您移除行并选择值为空,Wrangler 会从该列中移除值为空或 null 的行。
支持的过滤条件
您可以根据以下条件过滤行:
条件 | 说明 |
---|---|
值为空 | 保留或移除包含空值的值。 |
值为 | 保留或移除与指定值完全相同的值。对于列 包含字符串数据类型,您可以选择忽略字母大小写。通过 默认为在条件中包含大小写 |
值包含 | 保留或移除包含指定值的值。 |
值开头为 | 保留或移除以指定值开头的值。 |
值结尾为 | 保留或移除以指定值结尾的值。 |
与正则表达式匹配 | 保留或移除与正则表达式匹配的值。 |
自定义条件 | 保留或移除与自定义条件匹配的值。 |
后续步骤
- 详细了解 Wrangler 指令。