Extraia dados de campos

Esta página explica como extrair e transformar dados de um campo (uma célula) quando prepara dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.

Para fazer transformações nestes dados, divida-os em colunas separadas. No Wrangler, pode extrair dados de uma coluna e criar novas colunas para os dados extraídos. Pode extrair valores com base em padrões, delimitadores ou posições.

Extraia dados através de padrões

Pode extrair dados de campos em colunas do tipo de dados de string com os seguintes padrões:

  • Cartões de crédito
  • Data
  • Data/hora
  • Email
  • URLs de âncoras HTML
  • Endereço IPv4
  • Códigos ISBN
  • Endereço Mac
  • Número de N dígitos
  • NISS
  • Padrão de início e fim
  • Hora

Para extrair dados com base num padrão, siga estes passos:

  1. Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. No separador Dados, aceda ao nome de uma coluna e clique na seta de expansão arrow_drop_down.
  3. Selecione Extrair campos > Usando padrões e selecione uma opção, por exemplo, URL.
  4. Opcional: clique em Mostrar padrão para ver a expressão regular do padrão.
  5. Clique em Extrair.

O Wrangler extrai os campos com base no padrão escolhido e adiciona a diretiva extract-regex-groups à receita. Quando executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todas as linhas na coluna.

No exemplo seguinte, uma coluna contém um número, seguido de um endereço de email:

Emails
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Para extrair o endereço de email, selecione o padrão Email. Quando clica em Extrair, o Wrangler retém a coluna original e cria uma nova coluna que contém apenas os endereços de email:

Emails Emails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Extraia dados com delimitadores

Pode extrair dados para duas ou mais colunas com base nos seguintes delimitadores:

  • Vírgula
  • Tab
  • Barra vertical
  • Espaço em branco
  • Separador personalizado

Se um valor não tiver o delimitador, não é adicionado nenhum valor ao campo correspondente na nova coluna.

Para extrair valores com base num delimitador:

  1. Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. No separador Dados, aceda ao nome de uma coluna e clique na seta de expansão arrow_drop_down.
  3. Selecione Extrair campos > Usando delimitadores e selecione uma opção, por exemplo, Vírgula.
  4. Clique em Extrair.

O Wrangler extrai os campos com base no delimitador selecionado e adiciona a diretiva split-to-columns à receita. Quando executa o pipeline de dados, o Cloud Data Fusion transforma todos os valores na coluna.

No exemplo seguinte, uma coluna contém vários nomes separados por vírgulas:

ID Nome
1 Lee,Lucian,Luka
2 Mahan,Noam,Nur

Neste exemplo, a utilização do padrão de delimitadores de vírgulas extrai os valores da coluna Name original em três novas colunas:

ID Nome Name_1 Name_2 Name_3
1 Lee,Lucian,Luka Lee Lucian Luka
2 Mahan,Noam,Nur Mahan Noam Nur

Extraia dados por posição

Pode extrair parte de uma string com base na respetiva posição na string.

Para extrair dados com base na respetiva posição:

  1. Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. No separador Dados, aceda ao nome de uma coluna e clique na seta de expansão arrow_drop_down.
  3. Selecione Extrair campos > Usando posições. Os valores das colunas que pode extrair são apresentados com um fundo azul.
  4. Em qualquer célula da coluna, selecione os carateres a extrair.
  5. No campo Nome da coluna de destino, introduza um nome.
  6. Clique em Aplicar.

A parte escolhida do valor é extraída de cada linha na coluna.

O Wrangler extrai os campos com base no padrão selecionado e adiciona a diretiva cut-character à receita. Quando executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todos os valores na coluna.

O que se segue?