EXEMPLO: transformação Settype

Este exemplo ilustra como limpar dados que foram interpretados como de natureza numérica, quando na verdade são strings ou um tipo de string estruturada, como Gênero. Este exemplo usa:

Origem:

O exemplo a seguir contém informações de código de cliente e CEP em duas colunas. Quando carregados na página do Transformer, esses dados são inicialmente interpretados como numéricos, já que contêm todos os números.

Os valores de quatro dígitos de ZipCode devem ter cinco dígitos, com 0 na frente.

CustIdZipCode
40201231234
201212194105
321201294101
13012122020

Transformação:

Coluna CustId: é preciso digitar novamente essa coluna como valores de string. Defina o tipo de dados da coluna como String no menu suspenso da coluna, que é processado como a seguinte transformação:

settype col:CustId type:'String'

A coluna agora é do tipo String, mas transformações futuras podem fazer com que ela venha a ser novamente interpretada como valores inteiros. Para se prevenir quanto a isso, convém adicionar um marcador na frente da string. Remova esse marcador antes da execução.

O método básico é criar uma coluna nova contendo o marcador do código do cliente (C) e, em seguida, mesclá-la com a coluna CustId existente. É útil adicionar um indicador desse tipo à frente, caso o identificador do cliente seja um valor numérico que possa ser confundido com outros valores numéricos. Além disso, essa etapa de mesclagem força o valor a ser interpretado como um valor de string, o que é mais apropriado para um identificador.

merge col:'C', CustId

Agora, é possível descartar as colunas CustId e renomear a nova coluna como CustId.

Coluna ZipCode: é preciso converter esta coluna em valores válidos de CEP. Para facilitar a utilização, esta coluna precisa ser do tipo "String":

settype col:ZipCode type:'Zipcode'

Com a transformação abaixo, o valor na coluna ZipCode é alterado se o respectivo comprimento for quatro em qualquer linha. O novo valor é o valor original precedido do número 0:

set col: ZipCode value: if(len($col) == 4, merge(['0',$col]), $col)

Esta coluna agora pode ser digitada novamente como tipo "Código postal".

Resultados:

CustIdZipCode
C402012301234
C201212194105
C321201294101
C130121202020

Lembre-se de remover o marcador C da coluna CustId. Selecione o valor C na coluna CustId e escolha a transformação replace. Talvez seja necessário digitar novamente os dados limpos como dados de string.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.