Função REMOVESYMBOLS

Remove todos os caracteres de uma string que não sejam letras, números, caracteres latinos de acentuação ou espaços em branco.

OBSERVAÇÃO: as letras não latinas também são removidas.

Dica: esta função também remove pontuação comum, como a seguinte:

. , ! & ?

Para preservar esses caracteres, você pode substituí-los por uma string alfanumérica. Por exemplo, o ponto de interrogação pode ser substituído por:

zzQUESTIONMARKzz

Após a aplicação da função, é possível substituir essas strings pelos valores originais.

Uso básico

Exemplo de referência de coluna:

derive type:single value:REMOVESYMBOLS(MyName)

Saída: o valor da coluna MyName com todos os caracteres não alfanuméricos removidos.

Exemplo de literal de string:

derive type:single value:REMOVESYMBOLS('Héllõ, Wõrlds!?!?')

Saída: a string Héllõ Wõrlds é gravada na nova coluna.

Exemplo de caractere curinga:

set col:* value:REMOVESYMBOLS($col)

Saída: remove todos os caracteres não alfanuméricos ou de espaço de todas as colunas no conjunto de dados.

Sintaxe

derive type:single value:REMOVESYMBOLS(column_string)

ArgumentoObrigatório?Tipo de dadosDescrição
column_stringSstringNome da coluna ou literal de string a ser aplicado à função

Para saber mais informações sobre os padrões de sintaxe, consulte Notas de sintaxe da documentação da linguagem.

column_string

Nome da coluna ou constante de string em que os símbolos serão removidos.

  • Os valores em falta de string ou coluna geram resultados de string ausentes.
  • É necessário colocar as constantes de string entre aspas ('Hello, World').
  • Várias colunas e caracteres curinga não são aceitos.

Notas de uso:

Obrigatório?Tipo de dadosValor de exemplo
SimLiteral de string ou referência de colunamyColumn

Exemplos

Exemplo: funções de limpeza de strings em conjunto

O exemplo a seguir demonstra funções que podem ser usadas para limpar strings. Essas funções incluem os seguintes itens:

  • TRIM: remova os espaços em branco no início e no final. Consulte Função TRIM.
  • REMOVEWHITESPACE: remova os espaços em branco no início e no fim da string e todos os espaços em branco entre eles. Consulte Função REMOVEWHITESPACE.
  • REMOVESYMBOLS: remova todos os caracteres que não são alfanuméricos ou espaços em branco. Consulte Função REMOVESYMBOLS.

Fonte:

No exemplo a seguir, (space) e (tab) indicam as teclas de espaço e tabulação, respectivamente. O retorno do carro e os caracteres de nova linha também estão disponíveis para as funções de espaço em branco.

Stringssource
String01esta origem(space)(space)
String02(tab)(tab)esta origem
String03(tab)(tab)esta origem(space)(space)
String04desta origem?
String05Oras, seu @#$%^&*()!
String06esta örigem
String07(space)esta örigem
String08à amanhã

Transformação:

As transformações a seguir geram novas colunas usando cada uma das funções de limpeza de strings:

derive type:single value: TRIM(source) as: 'trim_source'

derive type:single value: REMOVEWHITESPACE(source) as: 'removewhitespace_source'

derive type:single value: REMOVESYMBOLS(source) as: 'removesymbols_source'

Resultados:

Stringssourceremovesymbols_sourceremovewhitespace_sourcetrim_source
String01esta origem(space)(space) esta origem(space)(space) estaorigemesta origem
String02(tab)(tab)esta origem(tab)(tab)esta origemestaorigemesta origem
String03(tab)(tab)esta origem(space)(space)(tab)(tab)esta origem(space)(space)estaorigemesta origem
String04desta origem?estas origensdestaorigem?desta origem?
String05Oras, seu @#$%^&*()!Oras seu Oras,seu@#$%^&*()!Oras, seu @#$%^&*()!
String06esta örigemesta rigemestaörigemesta örigem
String07(space)esta örigem(space)esta rigemestaörigemesta örigem
String08à amanhã manhà ama nhãà ama nhã

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.