Explodir dados de campos

Nesta página, explicamos como separar dados de um campo (uma célula) em várias linhas ao preparar dados no espaço de trabalho do Wrangler do estúdio do Cloud Data Fusion.

Separar texto delimitado

É possível separar os valores de uma célula em novas linhas se eles forem separados pelos seguintes delimitadores:

  • Vírgula
  • Tab
  • Barra vertical
  • Espaço em branco
  • Separador personalizado

Se uma célula não tiver o delimitador escolhido, nenhuma nova linha será inserida.

Para dividir valores com base em um delimitador, siga estas etapas:

  1. Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
  3. Clique em Explodir > Texto delimitado.
  4. Escolha um delimitador, por exemplo, pipe.
  5. Clique em Extrair.

O Wrangler divide os campos com base no delimitador selecionado e adiciona a diretiva split-to-row à receita. Quando você executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todos os valores na coluna.

Neste exemplo, um conjunto de dados tem uma coluna de valores de string contendo o delimitador de vírgula:

ID Nome
1 Lee,Lucian,Luka
2 Mahan,Noam

Para dividir o valor em linhas separadas, o Wrangler exclui a coluna original e cria uma nova coluna com uma linha para cada valor. Os outros valores de coluna da linha original são copiados para as novas linhas:

ID Nome_1
1 Lee
1 Lucian
1 Luka
2 Mahan
2 Noam

Matrizes separadas

A diretiva flatten separa os itens em matrizes, como ["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"], em novas linhas. Os outros valores de coluna do registro original são copiados para os novos registros.

A seguir