Esta página explica como separar os dados de um campo (uma célula) em várias linhas quando prepara os dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.
Separar texto delimitado
Pode separar os valores de uma célula em novas linhas se os valores estiverem separados pelos seguintes delimitadores:
- Vírgula
- Tab
- Barra vertical
- Espaço em branco
- Separador personalizado
Se uma célula não contiver o delimitador escolhido, não é inserida nenhuma nova linha.
Para dividir valores com base num delimitador, siga estes passos:
- Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
- No separador Dados, aceda ao nome de uma coluna e clique na seta de expansão arrow_drop_down.
- Clique em Dividir > Texto delimitado.
- Escolha um delimitador, por exemplo, Pipe.
Clique em Extrair.
O Wrangler divide os campos com base no delimitador selecionado e adiciona a diretiva split-to-row
à receita. Quando executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todos os valores na coluna.
Neste exemplo, um conjunto de dados tem uma coluna de valores de string que contém o delimitador de vírgula:
ID | Nome |
---|---|
1 | Lee,Lucian,Luka |
2 | Mahan,Noam |
Para dividir o valor em linhas separadas, o Wrangler elimina a coluna original e cria uma nova coluna com uma linha para cada valor. Os outros valores das colunas da linha original são copiados para as novas linhas:
ID | Name_1 |
---|---|
1 | Lee |
1 | Lucian |
1 | Luka |
2 | Mahan |
2 | Noam |
Matrizes separadas
A diretiva flatten
separa os itens em matrizes, como ["ELEMENT_1",
"ELEMENT_2", "ELEMENT_3"]
, em novas linhas. Os outros valores das colunas do registo original são copiados para os novos registos.
O que se segue?
- Saiba mais acerca das diretivas do Wrangler.