Expanda dados de campos

Esta página explica como separar os dados de um campo (uma célula) em várias linhas quando prepara os dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.

Separar texto delimitado

Pode separar os valores de uma célula em novas linhas se os valores estiverem separados pelos seguintes delimitadores:

  • Vírgula
  • Tab
  • Barra vertical
  • Espaço em branco
  • Separador personalizado

Se uma célula não contiver o delimitador escolhido, não é inserida nenhuma nova linha.

Para dividir valores com base num delimitador, siga estes passos:

  1. Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. No separador Dados, aceda ao nome de uma coluna e clique na seta de expansão arrow_drop_down.
  3. Clique em Dividir > Texto delimitado.
  4. Escolha um delimitador, por exemplo, Pipe.
  5. Clique em Extrair.

O Wrangler divide os campos com base no delimitador selecionado e adiciona a diretiva split-to-row à receita. Quando executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todos os valores na coluna.

Neste exemplo, um conjunto de dados tem uma coluna de valores de string que contém o delimitador de vírgula:

ID Nome
1 Lee,Lucian,Luka
2 Mahan,Noam

Para dividir o valor em linhas separadas, o Wrangler elimina a coluna original e cria uma nova coluna com uma linha para cada valor. Os outros valores das colunas da linha original são copiados para as novas linhas:

ID Name_1
1 Lee
1 Lucian
1 Luka
2 Mahan
2 Noam

Matrizes separadas

A diretiva flatten separa os itens em matrizes, como ["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"], em novas linhas. Os outros valores das colunas do registo original são copiados para os novos registos.

O que se segue?