Remover dados

Por meio de seleções simples, você pode identificar as colunas que serão removidas, os valores que servirão de base para a exclusão de linhas ou as strings que serão removidas de seu conjunto de dados. Essas transformações podem ser modificadas para transformações de remoção mais sofisticadas, conforme necessário.

Considerações ao remover dados

Tenha em mente o seguinte:

  • Quando os dados são removidos de seu conjunto de dados, nenhuma exclusão real é feita.
    • Os dados de origem não são modificados no Cloud Dataprep by TRIFACTA®. Todas as execuções de receitas geram novos conjuntos de dados com base nas transformações que você define e que são aplicadas a uma versão gerada dos dados de origem.
    • As etapas de transformação são pré-visualizadas e podem ser desfeitas nos dados de amostra na página "Transformer". Sendo assim, fique à vontade para testar a remoção de dados.
  • Em conjuntos de dados de grande volume, tenha cuidado ao aplicar padrões ou expressões regulares aos dados. É necessário limitar sua aplicação dessas mudanças baseadas em padrões ao intervalo mínimo de colunas, linhas ou strings necessárias para completar a tarefa.

Excluir colunas

Para excluir uma coluna do seu conjunto de dados, clique no menu suspenso da coluna e selecione Excluir. Os dados não estão mais disponíveis na grade de dados ou nas etapas seguintes do roteiro.

Dica: para excluir várias colunas, selecione-as na grade de dados ou no navegador da coluna. Em seguida, selecione Excluir no menu da coluna.

Dica: para simplesmente remover as colunas da exibição, use o comando Ocultar. A coluna oculta ainda é exibida no resultado.

Transformações manuais:

Para descartar várias colunas, especifique nomes de coluna separados por vírgulas na sua transformação Delete Columns:

Nome da transformação Delete columns
Parâmetro: colunas ColA,ColC,ColE
Parâmetro: ação Delete selected columns

Para descartar um intervalo de colunas, use o caractere til (~) entre os nomes das colunas inicial e final:

Nome da transformação Delete columns
Parâmetro: colunas ColA~ColE
Parâmetro: ação Delete selected columns

Para mais informações, consulte Remover dados.

Excluir linhas

É possível excluir linhas em seu conjunto de dados com base em padrões condicionais especificados por você. O método mais fácil é selecionar uma string na coluna apropriada e, em seguida, escolher o cartão de sugestão "Delete".

Eliminar linhas com base em seleções

Etapas:

No exemplo a seguir, cada linha contém uma entrada referente a uma empresa diferente. O objetivo é remover todas as entradas de empresas da cidade de Tempe.

  1. Nesse caso, é possível usar o histograma da coluna para selecionar o valor Tempe na coluna city ou usar o painel "Filtros" para filtrar as linhas que contêm o valor Tempe.
  2. Depois, selecione o cartão de sugestão "Excluir".

    Figura: selecionar Tempe na coluna City para remover todas as entradas referentes àquela cidade

  3. Depois de selecionar Delete, o aplicativo avalia o valor selecionado e tenta sua intenção com a seleção. É um literal de string ou um padrão? Se for um padrão, o que ele representa? Você pode selecionar uma das variantes no cartão Delete para encontrar a correspondência certa.

    OBSERVAÇÃO: não esqueça de rolar para cima e para baixo na grade de dados para analisar os valores afetados. Em alguns casos, sua seleção pode se transformar em um padrão, que pode se aplicar a mais do que apenas os valores pretendidos. No exemplo anterior, a seleção de Tempe pode resultar em um padrão de correspondência {alpha}{5}, que corresponderia a qualquer nome de cidade de cinco letras, incluindo Tempe. Selecione outras variantes no cartão Delete para alterar o padrão correspondente. Clique em Editar para revisar a string correspondente.

  4. Depois de definir e modificar sua transformação "Filter Rows", você pode usar a pré-visualização para ver quais linhas serão removidas antes de adicionar a transformação ao roteiro.

Dica: também é possível usar a transformação "Filter Rows" para reter linhas com base em uma condição especificada, excluindo efetivamente aquelas que não corresponderem. Consulte Filtrar dados.

Filas de filtro com base em condições de correspondência

É possível excluir ou manter linhas no conjunto de dados, com base em uma ou mais condições de correspondência definidas por você.

  1. No painel "Pesquisar," digite filter .
  2. Selecione o tipo de condição. É possível filtrar com base em:
    1. Tipo: valores em falta ou incompatíveis.
    2. Correspondências: combinações literais ou de padrão que são correspondências exatas, correspondências parciais ou combinações com o início ou o final dos valores das colunas.
    3. Intervalos: inferior a (ou igual a), superior a (ou igual a) ou combinações.
    4. Fórmula personalizada: especifique uma expressão que seja avaliada como true ou false. Se for true, os dados serão filtrados.
  3. Especifique os outros parâmetros, incluindo se precisa liberar ou manter as linhas correspondentes.

Para mais informações, consulte Filtrar dados.

Excluir linhas com várias células em branco

Se você tiver linhas em seu conjunto de dados que não contenham dados, as duas etapas a seguir podem ser usadas para removê-las. Supondo que você conheça os nomes das colunas inicial (col1) e final (colN) do seu conjunto de dados, tente a seguinte instrução:

OBSERVAÇÃO: se, posteriormente, você reordenar ou remover as colunas inicial e final em uma etapa anterior a esta, estas etapas não funcionarão corretamente.

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula MERGE([column1~columnN])
Parâmetro: nome da nova coluna 'all_blank_vals'

Nome da transformação Delete rows when value is missing
Parâmetro: coluna all_blank_vals
Parâmetro: ação Delete selected columns

As instruções acima mesclam todos os valores em um único valor na coluna all_blank_vals. A segunda etapa remove a linha se o valor na coluna mesclada estiver em branco.

Lembre-se de excluir all_blank_vals ao concluir.

Para mais informações, consulte Filtrar dados.

Remover valores

Para excluir valores de uma coluna, selecione-os na grade de dados. Nos cartões de sugestão, selecione o cartão Replace. No exemplo a seguir, a coluna city é removida de todos os valores correspondentes a Tempe:

Nome da transformação Replace text or patterns
Parâmetro: coluna city
Parâmetro: localizar 'Tempe'
Parâmetro: substituir por ''
Parâmetro: corresponder a todas as ocorrências true

A transformação "Replace" aplica-se apenas aos valores do tipo String. O restante de uma linha correspondente não é afetado.

A transformação acima corresponde a todos os valores na coluna, mesmo aqueles parciais. A string de correspondência é removida do valor da coluna. Por exemplo, uma entrada Tempest seria transformada em st se a transformação acima fosse adicionada.

Para garantir que apenas as correspondências de valores de coluna completa sejam aplicadas, adicione padrões do Cloud Dataprep para indicar o início e o final do valor da coluna da maneira a seguir:

Nome da transformação Replace text or patterns
Parâmetro: coluna city
Parâmetro: localizar `{start}Tempe{end}`
Parâmetro: substituir por ''
Parâmetro: corresponder a todas as ocorrências true

No caso acima, apenas os valores de Tempe que são o valor da coluna inteira são correspondentes. Para mais informações sobre essa combinação baseada em padrões, consulte Correspondência de texto.

Como usar expressões regulares

Para uma correspondência mais sofisticada, você pode aplicar expressões regulares ao seu comando replace. No exemplo a seguir, todos os números inteiros de 0 a 99 são correspondentes na coluna qty . Como não há valor de substituição, eles são excluídos.

As expressões regulares são ferramentas de correspondência de padrões muito poderosas. Você precisa ter cuidado com o uso delas. Consulte Correspondência de texto.

CaractereDefinição

^

Início da string. Obrigatório para evitar a correspondência no último dígito de qualquer valor numérico.
$Fim da string. Obrigatório para evitar uma combinação de dois dígitos em números de três dígitos.
\dUm único dígito.
|OR lógico. Nesse caso, ele é usado para definir expressões regulares separadas para valores de um e dois dígitos.
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.