Explodir dados de campos

Esta página explica como separar dados de um campo (uma célula) em vários linhas quando você prepara dados no espaço de trabalho Wrangler do Cloud Data Fusion Estúdio.

Separar texto delimitado

Você pode separar os valores de uma célula em novas linhas se os valores forem separados pelos seguintes delimitadores:

  • Vírgula
  • Tab
  • Barra vertical
  • Espaço em branco
  • Separador personalizado

Se uma célula não tiver o delimitador escolhido, nenhuma nova linha será inserida.

Para dividir valores com base em um delimitador, siga estas etapas:

  1. Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. Na guia Dados, vá para o nome de uma coluna e clique no arrow_drop_down seta de expansão.
  3. Clique em Explodir > Texto delimitado.
  4. Escolha um delimitador, por exemplo, pipe.
  5. Clique em Extrair.

O Wrangler divide os campos com base no delimitador selecionado e adiciona o Diretiva split-to-row para o roteiro. Quando você executa o pipeline de dados, o Cloud Data Fusion aplica a transformação a todos os valores na coluna.

Neste exemplo, um conjunto de dados tem uma coluna de valores de string contendo a vírgula delimitador:

ID Nome
1 Lee,Luciano,Luka
2 Mahan, Noam

Para dividir o valor em linhas separadas, o Wrangler exclui a coluna original e cria uma nova coluna com uma linha para cada valor. Os outros valores de coluna da linha original são copiados para as novas linhas:

ID Nome_1
1 Lee
1 Lúcia
1 Luka
2 Mãe
2 Noam

Matrizes separadas

A diretiva flatten separa itens de matrizes, como ["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"], em novas linhas. Os outros valores de coluna do são copiados para os novos registros.

A seguir