Correspondência de texto

O Cloud Dataprep by TRIFACTA® é compatível com os seguintes tipos de cláusulas de correspondência de texto:

  • Os literais de string fazem correspondência de strings com especificação exata. São escritos com aspas simples ('...') ou aspas duplas ("...").
  • As expressões regulares permitem a correspondência baseada em padrões. As expressões regulares são escritas com barras comuns (/.../). A sintaxe é baseada em expressões regulares de RE2 e PCRE.

    OBSERVAÇÃO: as expressões regulares são consideradas funções de nível de desenvolvedor e podem ter consequências significativas se especificadas incorretamente. A menos que se sinta confortável com expressões regulares, é preferível usar os padrões do Cloud Dataprep.

  • Os padrões do Cloud Dataprep são seletores personalizados para padrões nos dados e fornecem uma alternativa mais simples e legível a expressões regulares. Eles são escritos com acentos graves (`...`).

Exemplos de padrões do Cloud Dataprep:

Dica: depois de usar padrões do Cloud Dataprep, expressões regulares ou literais de string em uma etapa de receita, você pode reutilizá-los nas transformações quando aplicável. Consulte o painel Histórico de padrões.

PadrãoDescrição
%corresponder a qualquer caractere, exatamente uma vez
%?corresponder a qualquer caractere, zero ou uma vez
%*corresponder a qualquer caractere, zero ou mais vezes
%+corresponder a qualquer caractere, uma ou mais vezes
%{3}corresponder a qualquer caractere, exatamente três veze
%{3,5}corresponder a qualquer caractere, três, quatro ou cinco vezes
#caractere de dígito [0-9]
{any}corresponder a qualquer caractere, exatamente uma vez
{start}corresponder ao início da linha
{end}corresponder ao fim da linha
{alpha}caractere alfa [A-Za-z_]
{upper}caractere alfa maiúsculo [A-Z_]
{lower}caractere alfa minúsculo [a-z_]
{digit}caractere de dígito [0-9]
{delim}caractere de delimitador único, por exemplo :, ,, |, /, -,., \s
{delim-ws}delimitador único e todo o espaço em branco ao redor
{alpha-numeric}corresponder a um único caractere alfanumérico
{alphanum-underscore}corresponder a um único caractere alfanumérico ou um caractere sublinhado
{at-username}corresponder a valores de @username
{hashtag}corresponder a valores de #hashtag
{zip}, {hex}, {phone}, {email}tipos extensíveis, como expressões regulares
{state}, {state-abbrev}tipos extensíveis continuados
{month}, {month-abbrev}, {url}tipos extensíveis continuados
{ip-address}, {hex-ip-address}tipos extensíveis continuados
{time}, {bool}tipos extensíveis continuados
{[...]}a classe de caractere corresponde a caracteres entre parênteses
{![...]}classe negada corresponde a caracteres fora de parênteses
(...)agrupamento, incluindo capturas
#, %, ?, *, +, {, }, (, ), \, ’, \n, \tcaracteres de escape ou modificadores de padrões Use barra invertida dupla (\\) para denotar um literal de string de escape. Para mais informações, consulte Como fazer o escape de strings em transformações.
|OU lógico
  • E lógico é o operador implícito quando você concatena padrões de correspondência de texto.
  • NÃO lógico é gerenciado usando classes negadas.

Consulte também Referências do grupos de captura.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.