Nesta página, explicamos como filtrar ao preparar dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio. No Wrangler, é possível filtrar linhas de dados em colunas de qualquer tipo, exceto o booleano. Você mantém ou remove linhas com base em uma condição configurada.
Para manter ou remover linhas com base em uma condição, siga estas etapas:
- Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
- Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
- Selecione Filtrar e escolha uma opção. Por exemplo, Manter linhas e Se o valor contiver.
- Especifique a condição.
- Clique em Aplicar.
Os valores mudam com base no filtro. O Wrangler adiciona a diretiva filter-rows-on
à receita. Quando você executa o pipeline de dados, a transformação é aplicada aos valores na coluna.
Manter linhas
Se você optar por manter linhas com base em uma condição, as linhas que não atenderem a essa condição serão removidas. Apenas as linhas que atendem à condição permanecem no conjunto de dados. Por exemplo, se você selecionar value is e inserir a condição
Customer
, o Wrangler vai manter as linhas que contêm a string Customer
e remover
as linhas com outros valores.
Remover linhas
Se você optar por remover linhas com base em uma condição, as linhas que atenderem a essa condição serão removidas do conjunto de dados. Por exemplo, se você remover linhas e selecionar o valor está vazio, o Wrangler vai remover as linhas da coluna que têm valores vazios ou nulos.
Condições de filtro com suporte
É possível filtrar linhas com base nas seguintes condições:
Condição | Descrição |
---|---|
o valor está vazio | Mantém ou remove valores vazios. |
value é | Mantém ou remove valores com o valor especificado. Para colunas que contêm o tipo de dados de string, é possível ignorar o caso das letras. O padrão é incluir a capitalização na condição. |
value contains | Mantém ou remove valores que contêm o valor especificado. |
O valor começa com | Mantém ou remove valores que começam com o valor especificado. |
valor termina com | Mantém ou remove valores que terminam com o valor especificado. |
corresponde à regex | Mantém ou remove valores que correspondem à expressão regular. |
condição personalizada | Mantém ou remove valores que correspondem à condição personalizada. |
A seguir
- Saiba mais sobre as diretivas do Wrangler.