Filtrar dados

Nesta página, explicamos como filtrar ao preparar dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio. No Wrangler, é possível filtrar linhas de dados em colunas de qualquer tipo, exceto o booleano. Você mantém ou remove linhas com base em uma condição configurada.

Para manter ou remover linhas com base em uma condição, siga estas etapas:

  1. Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
  3. Selecione Filtrar e escolha uma opção. Por exemplo, Manter linhas e Se o valor contiver.
  4. Especifique a condição.
  5. Clique em Aplicar.

Os valores mudam com base no filtro. O Wrangler adiciona a diretiva filter-rows-on à receita. Quando você executa o pipeline de dados, a transformação é aplicada aos valores na coluna.

Manter linhas

Se você optar por manter linhas com base em uma condição, as linhas que não atenderem a essa condição serão removidas. Apenas as linhas que atendem à condição permanecem no conjunto de dados. Por exemplo, se você selecionar value is e inserir a condição Customer, o Wrangler vai manter as linhas que contêm a string Customer e remover as linhas com outros valores.

Remover linhas

Se você optar por remover linhas com base em uma condição, as linhas que atenderem a essa condição serão removidas do conjunto de dados. Por exemplo, se você remover linhas e selecionar o valor está vazio, o Wrangler vai remover as linhas da coluna que têm valores vazios ou nulos.

Condições de filtro com suporte

É possível filtrar linhas com base nas seguintes condições:

Condição Descrição
o valor está vazio Mantém ou remove valores vazios.
value é Mantém ou remove valores com o valor especificado. Para colunas que contêm o tipo de dados de string, é possível ignorar o caso das letras. O padrão é incluir a capitalização na condição.
value contains Mantém ou remove valores que contêm o valor especificado.
O valor começa com Mantém ou remove valores que começam com o valor especificado.
valor termina com Mantém ou remove valores que terminam com o valor especificado.
corresponde à regex Mantém ou remove valores que correspondem à expressão regular.
condição personalizada Mantém ou remove valores que correspondem à condição personalizada.

A seguir