Eliminar duplicação de dados

Como parte das etapas de limpeza de dados, você pode precisar remover linhas duplicadas de seu conjunto de dados.

Validar dados duplicados

Em alguns casos, pode ser aceitável ter dados duplicados. Por exemplo, registros adicionais que usem a mesma chave primária podem ser incluídos em um conjunto de dados como correções ou registros detalhados.

OBSERVAÇÃO: antes de remover as cópias do seu conjunto de dados, você precisa verificar se os dados não precisam contê-las. Se a estrutura de dados for compatível com alguns elementos duplicados, incluindo valores-chave, você precisa ter cuidado com a forma como identifica o que constitui uma informação duplicada.

Transformação deduplicate

O Cloud Dataprep by TRIFACTA® INC. fornece uma única transformação que pode remover linhas idênticas do conjunto de dados:

Dica: se você quer identificar se há linhas duplicadas, verifique a contagem de linhas no conjunto de dados antes e depois de ter adicionado esta transformação.

Nome da transformação Remove duplicate rows

Limitações:

  • Esta transformação diferencia maiúsculas de minúsculas. Então, se uma coluna tiver os valores Hello e HELLO, as linhas que contêm esses valores não são consideradas duplicatas e não podem ser removidas com essa transformação.
  • Espaços em branco e início e final de valores não são ignorados.

Antes de aplicar a transformação deduplicate, tente normalizar os dados. Você pode usar as técnicas a seguir para normalizar algumas colunas de dados.

OBSERVAÇÃO: se você tiver mais de 20 colunas de dados, pode ser mais indicado tentar identificar um método de chave primária para eliminar a duplicação do conjunto de dados. Veja os detalhes abaixo.

Para colunas individuais, você pode usar a função trim para remover espaço em branco no início e no fim:

OBSERVAÇÃO: para preservar os valores de coluna originais, use a transformação derive. A transformação set substitui os valores originais.

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula TRIM(Item)

Como a transformação deduplicate diferencia maiúsculas de minúsculas, você pode usar a função LOWER para fazer com que essa distinção seja consistente em cada entrada de uma coluna:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula LOWER(Description)

Para mais informações, consulte Normalizar valores numéricos.

Eliminar duplicação de linhas com base em uma chave primária

Um método mais fácil de eliminar duplicação de dados é excluir linhas com base em uma ou mais colunas que você identifica como uma chave primária para o conjunto de dados. Uma chave primária é um identificador que define exclusivamente uma linha de dados dentro de um conjunto de dados. Pode ser um único campo (coluna) ou uma combinação de colunas. Por exemplo, em um conjunto de dados de localizações de restaurantes, a chave primária pode ser uma combinação de RestaurantName, Address e Zip.

OBSERVAÇÃO: antes de continuar, é necessário identificar uma chave primária para seu conjunto de dados. Consulte Gerar chaves primárias.

Depois de identificar sua chave primária, é necessário identificar o método apropriado para o conjunto de dados. Complete as etapas a seguir.

Etapas:

  1. Se sua chave primária abranger várias colunas, use a transformação merge para colocar os valores em uma única coluna:

    Nome da transformação Merge columns
    Parâmetro: colunas RestaurantName,Address,Zip
    Parâmetro: separador '-'
  2. Renomeie a coluna gerada: PrimaryKey.

  3. Use a transformação a seguir para gerar uma nova coluna, comparando cada valor na coluna PrimaryKey com a anterior:

    Nome da transformação Window
    Parâmetro: fórmulas PREV(PrimaryKey, 1)
    Parâmetro: organizar por PrimaryKey
  4. Para cada linha, o valor da nova coluna é o valor na PrimaryKey da linha anterior. Agora, teste se esse valor é o mesmo que o valor na coluna PrimaryKey da linha atual:

    Nome da transformação New formula
    Parâmetro: tipo de fórmula Single row formula
    Parâmetro: fórmula IF((window==PrimaryKey),true,false)
    Parâmetro: nome da nova coluna IsDupe
  5. A nova coluna (IsDupe) contém true para chaves primárias duplicadas. Exclua as linhas duplicadas:

    Nome da transformação Delete rows
  6. Exclua quaisquer colunas geradas que não sejam mais necessárias.

Eliminar duplicação de colunas

Esta forma de dados duplicados é mais rara, mas pode ser necessário verificar a possível existência de dados duplicados entre as colunas. Para verificar se há dados de coluna duplicados, você pode usar uma transformação semelhante a esta:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula Column1 == Column2
Parâmetro: nome da nova coluna 'dupeColVals'

Na coluna gerada, os valores que são true indicam dados duplicados. Se todos os valores forem true, será possível remover uma das colunas.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.