Referências do grupo de captura

Nas transformações Wrangle compatíveis com o uso de padrões, talvez seja necessário especificar grupos de captura. Um grupo de captura é um padrão que descreve um conjunto de um ou mais caracteres que constituem uma correspondência. Essas correspondências podem ser referenciadas programaticamente em valores de substituição.

  • Esses padrões são descritos usando a sintaxe de expressões regulares. O Cloud Dataprep by TRIFACTA INC. implementa uma versão de expressões regulares com base nas expressões regulares RE2 e PCRE.

Grupos básicos de captura

Exemplo 1

replace col:* on:`{start}(%+) ` with:'First Word\:$1'

Elementos do padrão correspondente (em:):

ReferênciaDescrição
{start}

Uma referência padrão do Cloud Dataprep ao início do valor testado.

(%+)

Corresponde a um ou mais caracteres em qualquer momento.

OBSERVAÇÃO: os parênteses indicam que esse conjunto de caracteres é um grupo de captura.

O último caractere no padrão correspondente é um espaço vazio.

Correspondências: o primeiro conjunto de qualquer caractere do valor testado até o primeiro espaço vazio (a primeira palavra), em todas as colunas do conjunto de dados.

Substituído por: o valor do texto First Word:, seguido por uma referência ao primeiro grupo de captura ($1), que retorna a primeira palavra encontrada no valor testado.

Exemplo 2

O exemplo anterior funciona bem, desde que haja um espaço no valor testado para identificar o final da primeira palavra. Se houver somente uma palavra no valor testado, altere o valor do parâmetro on: para o seguinte:

replace col:* on:`{start}(%+) ( |{end})` with:'First Word\:$1'

Nesse caso, o segundo grupo de captura apresenta dois elementos:

ReferênciaDescrição
o primeiro caractere no segundo grupo de captura é um espaço vazio.
|OU lógico, o que significa que o grupo de captura corresponde ao espaço vazio ou ao valor seguinte, que é uma referência ao final do valor testado.
{end}

Uma referência padrão do Cloud Dataprep ao final do valor testado.

Exemplo 3

replace col:* on:`{start}(%+) (%+)( |{end})` with:'Second Word\:$2'

Correspondências: o padrão on: foi ampliado para incluir a segunda palavra do valor testado em todas as colunas do conjunto de dados.

Substituído por: o valor do texto Second Word:, seguido por uma referência ao segundo grupo de captura ($2), que retorna a segunda palavra encontrada no valor testado.

Sinal de dólar na transformação Replace

O sinal de dólar ($) é usado como um modo de caractere de escape no parâmetro with da transformação replace. Esse padrão identifica a string de substituição.

Antecipações positivas e negativas

Em expressões regulares, você pode usar grupos de captura de antecipações positivas e negativas para capturar conteúdo condicionalmente seguido ou não por um grupo de captura especificado.

TipoExpressão de exemplo
Antecipação positiva

/q(?u)/
Capture a letra q somente quando for seguida pela letra u. A letra u não é capturada.
Antecipação negativa

/q(?!u)/
Capture a letra q quando ela não for seguida pela letra u. A letra u não é capturada.
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.