Extrair dados de campos

Esta página explica como extrair e transformar dados de um campo (uma célula) ao preparar dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.

Para realizar transformações nesses dados, divida-os em colunas separadas. No Wrangler, é possível extrair dados de uma coluna e criar novas colunas para os dados extraídos. É possível extrair valores com base em padrões, delimitadores ou posições.

Extrair dados usando padrões

É possível extrair dados de campos em colunas do tipo de dados de string com os seguintes padrões:

  • cartões de crédito;
  • Data
  • Data e hora
  • E-mail
  • URLs de âncoras HTML
  • Endereço IPv4
  • Códigos ISBN
  • Endereço MAC
  • Número de N dígitos
  • SSN
  • Padrão de início e término
  • Hora

Para extrair dados com base em um padrão, siga estas etapas:

  1. Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
  3. Selecione Extrair campos > Usando padrões e selecione uma opção, por exemplo, URL.
  4. Opcional: clique em Mostrar padrão para conferir a expressão regular do padrão.
  5. Clique em Extrair.

O Wrangler extrai os campos com base no padrão escolhido e adiciona a diretiva extract-regex-groups à receita. Quando você executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todas as linhas na coluna.

No exemplo abaixo, uma coluna contém um número, seguido por um endereço de e-mail:

E-mails
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Para extrair o endereço de e-mail, selecione o padrão E-mail. Quando você clica em Extrair, o Wrangler mantém a coluna original e cria uma nova coluna que contém apenas os endereços de e-mail:

E-mails Emails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Extrair dados com delimitadores

É possível extrair dados em duas ou mais colunas com base nos seguintes delimitadores:

  • Vírgula
  • Tab
  • Barra vertical
  • Espaço em branco
  • Separador personalizado

Se um valor não tiver o delimitador, nenhum valor será adicionado ao campo correspondente na nova coluna.

Para extrair valores com base em um delimitador:

  1. Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
  3. Selecione Extrair campos > Usando delimitadores e selecione uma opção, por exemplo, Vírgula.
  4. Clique em Extrair.

O Wrangler extrai os campos com base no delimitador selecionado e adiciona a diretiva split-to-columns à receita. Quando você executa o pipeline de dados, o Cloud Data Fusion transforma todos os valores na coluna.

No exemplo abaixo, uma coluna contém vários nomes separados por vírgulas:

ID Nome
1 Lee,Lucian,Luka
2 Mahan,Noam,Nur

Neste exemplo, o uso do padrão de delimitadores de vírgulas extrai os valores da coluna Name original para três novas colunas:

ID Nome Nome_1 Nome_2 Nome_3
1 Lee,Lucian,Luka Lee Lucian Luka
2 Mahan,Noam,Nur Mahan Noam Nur

Extrair dados por posição

É possível extrair parte de uma string com base na posição dela na string.

Para extrair dados com base na posição:

  1. Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
  3. Selecione Extrair campos > Usando posições. Os valores de coluna que podem ser extraídos aparecem com um plano de fundo azul.
  4. Em qualquer célula da coluna, selecione os caracteres a serem extraídos.
  5. No campo Nome da coluna de destino, insira um nome.
  6. Clique em Aplicar.

A parte escolhida do valor é extraída de cada linha na coluna.

O Wrangler extrai os campos com base no padrão selecionado e adiciona a diretiva cut-character à receita. Quando você executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todos os valores na coluna.

A seguir