Transformação Deduplicate

OBSERVAÇÃO: as transformações fazem parte da linguagem subjacente não diretamente acessível aos usuários. Esse conteúdo é mantido apenas para fins de referência.

Remove as linhas duplicadas exatas do conjunto de dados. As linhas duplicadas são identificadas por correspondências exatas e que diferenciam maiúsculas e minúsculas entre valores.

Por exemplo, duas strings com letras maiúsculas diferentes não correspondem.

Uso básico

deduplicate

Saída: linhas que são duplicatas exatas de linhas anteriores são removidas do conjunto de dados.

Parâmetros

Não há parâmetros para essa transformação.

Exemplos

Correspondências e não correspondências para eliminação de duplicações de transformação

Fonte:

Por exemplo, seu conjunto de dados é semelhante ao do exemplo abaixo, que contém três conjuntos de registros muito parecidos. A segunda linha de cada conjunto é diferente em uma coluna com respeito à anterior.

NomeDataPontuação
Joe Jones1/2/0388
joe jones1/2/0388
Jane Jackson2/3/0477
Jane Jackson3 de fevereiro de 200477
Jill Johns3/4/0566
Jill Johns3/4/0566,00

Transformação:

deduplicate

Se você usar deduplicate neste conjunto de dados, nenhuma linha será visualizada. Essa visualização indica que nenhuma linha será removida como duplicata. Talvez seja necessário limpar os dados antes de remover linhas duplicadas.

O primeiro passo será deixar o uso de maiúsculas e minúsculas consistente. Tente o seguinte:

set col:Name value:PROPER(Name)

Todas as entradas na coluna Name agora aparecem como nomes próprios. Em seguida, você pode limpar a coluna de pontuação normalizando valores numéricos para o mesmo formato. Tente o seguinte:

set col:Score value:NUMFORMAT(Score, '##.00')

A transformação acima normaliza os formatos numéricos para incluir sempre dois dígitos após a vírgula decimal, o que força todos os números a ficarem do mesmo formato. Você também pode usar a string de formato ## nesse caso.

Use o seguinte para corrigir a coluna Data:

replace col:Date with:'2/3/04' on:'February 3, 2004'

Agora, você pode executar a transformação deduplicate:

deduplicate

Resultados:

NomeDataPontuação
Joe Jones1/2/0388,00
Jane Jackson2/3/0477,00
Jill Johns3/4/0566,00

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.