本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时如何进行过滤。在 Wrangler 中,您可以过滤布尔值类型以外的任何数据类型的列中的数据行。您可以根据自己配置的条件保留或移除行。
如需根据条件保留或移除行,请按以下步骤操作:
- 前往 Cloud Data Fusion 中的 Wrangler 工作区。
- 在数据标签页中,找到列名称,然后点击 arrow_drop_down 展开箭头。
- 选择过滤,然后选择一个选项,例如保留行和如果值包含。
- 指定条件。
- 点击应用。
这些值会根据过滤条件而变化。Wrangler 会将 filter-rows-on
指令添加到该配方中。运行数据流水线时,系统会将转换应用于该列中的值。
保留行
如果您选择根据条件保留行,系统会移除不符合条件的行。只有符合条件的行会保留在数据集中。例如,如果您选择值为,然后输入条件 Customer
,Wrangler 会保留包含字符串 Customer
的行,并移除包含其他值的行。
移除行
如果您选择根据条件移除行,系统会从数据集中移除符合条件的行。例如,如果您移除行并选择值为空,Wrangler 会从该列中移除值为空或 null 的行。
支持的过滤条件
您可以根据以下条件过滤行:
条件 | 说明 |
---|---|
值为空 | 保留或移除包含空值的值。 |
值为 | 保留或移除与指定值完全相同的值。对于包含字符串数据类型的列,您可以选择忽略大小写。默认情况下,条件中会包含大小写。 |
值包含 | 保留或移除包含指定值的值。 |
值开头为 | 保留或移除以指定值开头的值。 |
值结尾为 | 保留或移除以指定值结尾的值。 |
与正则表达式匹配 | 保留或移除与正则表达式匹配的值。 |
自定义条件 | 保留或移除与自定义条件匹配的值。 |
后续步骤
- 详细了解 Wrangler 指令。