Esta página foi traduzida pela API Cloud Translation.

Extrair dados de campos

Esta página explica como extrair e transformar dados de um campo (uma célula) ao preparar dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.

Para realizar transformações nesses dados, divida-os em colunas separadas. No Wrangler, é possível extrair dados de uma coluna e criar novas colunas para os dados extraídos. É possível extrair valores com base em padrões, delimitadores ou posições.

Extrair dados usando padrões

É possível extrair dados de campos em colunas do tipo de dados de string com os seguintes padrões:

cartões de crédito;
Data
Data e hora
E-mail
URLs de âncoras HTML
Endereço IPv4
Códigos ISBN
Endereço MAC
Número de N dígitos
SSN
Padrão de início e término
Hora

Para extrair dados com base em um padrão, siga estas etapas:

Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
Selecione Extrair campos > Usando padrões e selecione uma opção, por exemplo, URL.
Opcional: clique em Mostrar padrão para conferir a expressão regular do padrão.
Clique em Extrair.

O Wrangler extrai os campos com base no padrão escolhido e adiciona a diretiva extract-regex-groups à receita. Quando você executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todas as linhas na coluna.

No exemplo abaixo, uma coluna contém um número, seguido por um endereço de e-mail:

E-mails
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Para extrair o endereço de e-mail, selecione o padrão E-mail. Quando você clica em Extrair, o Wrangler mantém a coluna original e cria uma nova coluna que contém apenas os endereços de e-mail:

E-mails	Emails_1
1 222larabrown@gmail.com	222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com	cloudysanfrancisco@gmail.com

Extrair dados com delimitadores

É possível extrair dados em duas ou mais colunas com base nos seguintes delimitadores:

Vírgula
Tab
Barra vertical
Espaço em branco
Separador personalizado

Se um valor não tiver o delimitador, nenhum valor será adicionado ao campo correspondente na nova coluna.

Para extrair valores com base em um delimitador:

Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
Selecione Extrair campos > Usando delimitadores e selecione uma opção, por exemplo, Vírgula.
Clique em Extrair.

O Wrangler extrai os campos com base no delimitador selecionado e adiciona a diretiva split-to-columns à receita. Quando você executa o pipeline de dados, o Cloud Data Fusion transforma todos os valores na coluna.

No exemplo abaixo, uma coluna contém vários nomes separados por vírgulas:

ID	Nome
1	Lee,Lucian,Luka
2	Mahan,Noam,Nur

Neste exemplo, o uso do padrão de delimitadores de vírgulas extrai os valores da coluna Name original para três novas colunas:

ID	Nome	Nome_1	Nome_2	Nome_3
1	Lee,Lucian,Luka	Lee	Lucian	Luka
2	Mahan,Noam,Nur	Mahan	Noam	Nur

Extrair dados por posição

É possível extrair parte de uma string com base na posição dela na string.

Para extrair dados com base na posição:

Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
Selecione Extrair campos > Usando posições. Os valores de coluna que podem ser extraídos aparecem com um plano de fundo azul.
Em qualquer célula da coluna, selecione os caracteres a serem extraídos.
No campo Nome da coluna de destino, insira um nome.
Clique em Aplicar.

A parte escolhida do valor é extraída de cada linha na coluna.

O Wrangler extrai os campos com base no padrão selecionado e adiciona a diretiva cut-character à receita. Quando você executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todos os valores na coluna.

A seguir

Saiba mais sobre as diretivas do Wrangler.