Gerenciar comprimentos de string

Neste exemplo, o sistema de destino tem um limite no comprimento máximo dos campos "Name" e "Last Name". Use as transformações a seguir para avaliar e truncar strings com base no comprimento delas.

Testar o comprimento da string

Use o seguinte comando para escrever uma mensagem TOO LONG quando o comprimento do campo first_name exceder 32 caracteres:

Nome da transformação Edit column with formula
Parâmetro: colunas String_test
Parâmetro: fórmula IF(LEN(first_name) > 32, 'TOO LONG',String_test)

Truncar strings

O teste acima permite que você avalie strings individuais que são muito longas para determinar se elas causam erros ou se podem ser encurtadas de alguma maneira. Para um grande conjunto de dados em que esses problemas não possam ser resolvidos facilmente, basta optar por diminuir o comprimento de uma string para 32 caracteres:

Nome da transformação Edit column with formula
Parâmetro: colunas *
Parâmetro: fórmula LEFT($col,32)

No exemplo acima, use um caractere curinga que corresponda a todas as colunas no conjunto de dados. O valor de substituição é definido como os primeiros 32 caracteres da coluna de origem ($col). Com a definição da função LEFT, as colunas com menos de 32 caracteres de comprimento não são alteradas.

Dica: se o campo truncado for usado como chave para o conjunto de dados, verifique se a chave ainda contém valores exclusivos após aplicar o truncamento. Por exemplo, se a combinação de first_name e last_name for um identificador exclusivo no conjunto de dados, verifique se a coluna que contém esses identificadores tem valores exclusivos.

Comprimentos de string especializados

Em alguns casos, convém limitar o comprimento das strings de texto. Neste exemplo, o conjunto de dados contém uma coluna de valores de código postal, alguns no formato código + 4. Os dados de origem podem ser semelhantes a:

zip_code
94104
94104-2218
94105

Para fins de consistência, convém limitar a coluna para usar apenas os cinco primeiros dígitos do código postal.

Etapas:

  1. Selecione os cinco primeiros dígitos de um dos códigos postais de nove dígitos.
  2. Nos cartões de sugestão, selecione o cartão "Extract".
  3. Selecione a seguinte variação:

    Nome da transformação Extract text or pattern
    Parâmetro: coluna da qual será extraída zipcode
    Parâmetro: opção Custom text or pattern
    Parâmetro: texto a ser extraído `{zip}`
    Parâmetro: começar a extrair depois `{start}`
  4. Clique em Add.

A solução acima se refere a dois padrões do Cloud Dataprep para identificar elementos do valor da célula. Para mais informações, consulte Correspondência de texto.

Para uma abordagem mais generalizada, use algumas das funções de string a seguir para limitar o comprimento dos dados. Valores mais curtos do que o comprimento de string designado não são alterados.

OBSERVAÇÃO: as transformações que reduzem o tamanho de um valor podem gerar valores incompatíveis ou ausentes com base no tipo de dados da coluna. Verifique se você não está criando novos valores ausentes ou incompatíveis.

Usar os valores mais à direita

Use a seguinte transformação para reduzir uma string aos seis caracteres mais à direita de qualquer valor:

Nome da transformação Edit column with formula
Parâmetro: colunas prodID
Parâmetro: fórmula RIGHT(prodID, 6)

Valores de substring

A função SUBSTRING permite que você atribua um subconjunto específico dos caracteres da string a ser usado. Você especifica o índice do primeiro caractere nos valores e o número de caracteres subsequentes que serão incluídos. Por exemplo, quando aplicada ao valor United States of America na coluna countries, a transformação a seguir define o novo valor como States.

Nome da transformação Edit column with formula
Parâmetro: colunas countries
Parâmetro: fórmula SUBSTRING(countries, 7, 6)

O valor do índice começa em zero. Para extrair do início do valor, substitua 7 no exemplo acima por 0.

Funções de string adicionais

O Wrangle é compatível com outras funções que podem ser usadas para transformar valores de string. Consulte Funções String.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.