过滤数据

本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时如何进行过滤。在 Wrangler 中,您可以过滤出 任意数据类型(布尔值类型除外)列中的数据。您保留或移除 行。

如需根据条件保留或移除行,请按以下步骤操作:

  1. 转到 Cloud Data Fusion 中的 Wrangler 工作区
  2. 数据标签页上,转到列名称,然后点击 arrow_drop_down 展开箭头。
  3. 选择过滤,然后选择一个选项,例如保留行如果 值包含
  4. 指定条件。
  5. 点击应用

这些值会根据过滤条件而变化。Wrangler 会将 filter-rows-on 指令添加到该配方中。运行数据流水线时,系统会将转换应用于该列中的值。

保留行

如果您选择根据条件保留行,系统会移除不符合条件的行。只有符合条件的行会保留在数据集中。例如,如果您选择值为并输入条件 Customer,Wrangler 将保留包含字符串 Customer 的行并移除 带有其他值的行。

移除行

如果您选择根据条件移除行,系统会从数据集中移除符合条件的行。例如,如果您移除行并选择值为空,Wrangler 会从该列中移除值为空或 null 的行。

支持的过滤条件

您可以根据以下条件过滤行:

条件 说明
值为空 保留或移除包含空值的值。
值为 保留或移除与指定值完全相同的值。对于列 包含字符串数据类型,您可以选择忽略字母大小写。通过 默认为在条件中包含大小写
值包含 保留或移除包含指定值的值。
值开头为 保留或移除以指定值开头的值。
值结尾为 保留或移除以指定值结尾的值。
与正则表达式匹配 保留或移除与正则表达式匹配的值。
自定义条件 保留或移除与自定义条件匹配的值。

后续步骤