Esta página explica como extrair e transformar dados de um campo (uma célula) ao preparar dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.
Para realizar transformações nesses dados, divida-os em colunas separadas. No Wrangler, é possível extrair dados de uma coluna e criar novas colunas para os dados extraídos. É possível extrair valores com base em padrões, delimitadores ou posições.
Extrair dados usando padrões
É possível extrair dados de campos em colunas do tipo de dados de string com os seguintes padrões:
- cartões de crédito;
- Data
- Data e hora
- URLs de âncoras HTML
- Endereço IPv4
- Códigos ISBN
- Endereço MAC
- Número de N dígitos
- SSN
- Padrão de início e término
- Hora
Para extrair dados com base em um padrão, siga estas etapas:
- Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
- Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
- Selecione Extrair campos > Usando padrões e selecione uma opção, por exemplo, URL.
- Opcional: clique em Mostrar padrão para conferir a expressão regular do padrão.
- Clique em Extrair.
O Wrangler extrai os campos com base no padrão escolhido e adiciona a
diretiva extract-regex-groups
à receita. Quando você executa o pipeline de dados,
o Cloud Data Fusion aplica a transformação a todas as linhas na coluna.
No exemplo abaixo, uma coluna contém um número, seguido por um endereço de e-mail:
E-mails |
---|
1 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com |
Para extrair o endereço de e-mail, selecione o padrão E-mail. Quando você clica em Extrair, o Wrangler mantém a coluna original e cria uma nova coluna que contém apenas os endereços de e-mail:
E-mails | Emails_1 |
---|---|
1 222larabrown@gmail.com | 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com | cloudysanfrancisco@gmail.com |
Extrair dados com delimitadores
É possível extrair dados em duas ou mais colunas com base nos seguintes delimitadores:
- Vírgula
- Tab
- Barra vertical
- Espaço em branco
- Separador personalizado
Se um valor não tiver o delimitador, nenhum valor será adicionado ao campo correspondente na nova coluna.
Para extrair valores com base em um delimitador:
- Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
- Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
- Selecione Extrair campos > Usando delimitadores e selecione uma opção, por exemplo, Vírgula.
- Clique em Extrair.
O Wrangler extrai os campos com base no delimitador selecionado e adiciona a
diretiva split-to-columns
à receita. Quando você executa o pipeline de dados,
o Cloud Data Fusion transforma todos os valores na coluna.
No exemplo abaixo, uma coluna contém vários nomes separados por vírgulas:
ID | Nome |
---|---|
1 | Lee,Lucian,Luka |
2 | Mahan,Noam,Nur |
Neste exemplo, o uso do padrão de delimitadores de vírgulas extrai os valores da coluna Name
original para três novas colunas:
ID | Nome | Nome_1 | Nome_2 | Nome_3 |
---|---|---|---|---|
1 | Lee,Lucian,Luka | Lee | Lucian | Luka |
2 | Mahan,Noam,Nur | Mahan | Noam | Nur |
Extrair dados por posição
É possível extrair parte de uma string com base na posição dela na string.
Para extrair dados com base na posição:
- Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
- Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
- Selecione Extrair campos > Usando posições. Os valores de coluna que podem ser extraídos aparecem com um plano de fundo azul.
- Em qualquer célula da coluna, selecione os caracteres a serem extraídos.
- No campo Nome da coluna de destino, insira um nome.
- Clique em Aplicar.
A parte escolhida do valor é extraída de cada linha na coluna.
O Wrangler extrai os campos com base no padrão selecionado e adiciona a
diretiva cut-character
à receita. Quando você executa o pipeline de dados,
o Cloud Data Fusion aplica a transformação a todos os valores na coluna.
A seguir
- Saiba mais sobre as diretivas do Wrangler.