Esta página explica como extrair e transformar dados de um campo (uma célula) quando prepara dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.
Para fazer transformações nestes dados, divida-os em colunas separadas. No Wrangler, pode extrair dados de uma coluna e criar novas colunas para os dados extraídos. Pode extrair valores com base em padrões, delimitadores ou posições.
Extraia dados através de padrões
Pode extrair dados de campos em colunas do tipo de dados de string com os seguintes padrões:
- Cartões de crédito
- Data
- Data/hora
- URLs de âncoras HTML
- Endereço IPv4
- Códigos ISBN
- Endereço Mac
- Número de N dígitos
- NISS
- Padrão de início e fim
- Hora
Para extrair dados com base num padrão, siga estes passos:
- Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
- No separador Dados, aceda ao nome de uma coluna e clique na seta de expansão arrow_drop_down.
- Selecione Extrair campos > Usando padrões e selecione uma opção, por exemplo, URL.
- Opcional: clique em Mostrar padrão para ver a expressão regular do padrão.
- Clique em Extrair.
O Wrangler extrai os campos com base no padrão escolhido e adiciona a diretiva extract-regex-groups
à receita. Quando executa o pipeline de dados,
o Cloud Data Fusion aplica a transformação a todas as linhas na coluna.
No exemplo seguinte, uma coluna contém um número, seguido de um endereço de email:
Emails |
---|
1 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com |
Para extrair o endereço de email, selecione o padrão Email. Quando clica em Extrair, o Wrangler retém a coluna original e cria uma nova coluna que contém apenas os endereços de email:
Emails | Emails_1 |
---|---|
1 222larabrown@gmail.com | 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com | cloudysanfrancisco@gmail.com |
Extraia dados com delimitadores
Pode extrair dados para duas ou mais colunas com base nos seguintes delimitadores:
- Vírgula
- Tab
- Barra vertical
- Espaço em branco
- Separador personalizado
Se um valor não tiver o delimitador, não é adicionado nenhum valor ao campo correspondente na nova coluna.
Para extrair valores com base num delimitador:
- Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
- No separador Dados, aceda ao nome de uma coluna e clique na seta de expansão arrow_drop_down.
- Selecione Extrair campos > Usando delimitadores e selecione uma opção, por exemplo, Vírgula.
- Clique em Extrair.
O Wrangler extrai os campos com base no delimitador selecionado e adiciona a diretiva split-to-columns
à receita. Quando executa o pipeline de dados, o Cloud Data Fusion transforma todos os valores na coluna.
No exemplo seguinte, uma coluna contém vários nomes separados por vírgulas:
ID | Nome |
---|---|
1 | Lee,Lucian,Luka |
2 | Mahan,Noam,Nur |
Neste exemplo, a utilização do padrão de delimitadores de vírgulas extrai os valores da coluna Name
original em três novas colunas:
ID | Nome | Name_1 | Name_2 | Name_3 |
---|---|---|---|---|
1 | Lee,Lucian,Luka | Lee | Lucian | Luka |
2 | Mahan,Noam,Nur | Mahan | Noam | Nur |
Extraia dados por posição
Pode extrair parte de uma string com base na respetiva posição na string.
Para extrair dados com base na respetiva posição:
- Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
- No separador Dados, aceda ao nome de uma coluna e clique na seta de expansão arrow_drop_down.
- Selecione Extrair campos > Usando posições. Os valores das colunas que pode extrair são apresentados com um fundo azul.
- Em qualquer célula da coluna, selecione os carateres a extrair.
- No campo Nome da coluna de destino, introduza um nome.
- Clique em Aplicar.
A parte escolhida do valor é extraída de cada linha na coluna.
O Wrangler extrai os campos com base no padrão selecionado e adiciona a diretiva cut-character
à receita. Quando executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todos os valores na coluna.
O que se segue?
- Saiba mais acerca das diretivas do Wrangler.