Analisar arquivo de largura fixa e inferir colunas

Para conjuntos de dados que tenham uma largura fixa para cada linha, a determinação das quebras de coluna pode ser mais desafiadora, por causa do número incerto de espaços e tabulações entre cada elemento de dados. Com a correspondência de padrão melhorada, o aplicativo pode ajudar você a identificar os locais apropriados para quebrar colunas e cortar os dados a fim de eliminar o preenchimento de espaço em branco.

Etapas:

  1. Importe o conjunto de dados de largura fixa por meio do aplicativo e comece a transformação.
  2. Os dados agora serão semelhantes aos itens a seguir:


    Figura: conjunto de dados de largura fixa após a importação

  3. No menu suspenso à direita do nome da coluna, selecione Column Details.

  4. No painel "Column Details", clique na guia "Patterns".

  5. Clique na área "All Patterns".

    OBSERVAÇÃO: a seleção de um token de padrão específico vai gerar sugestões apenas para esse token em especial.

    OBSERVAÇÃO: se o aplicativo tiver inferido que o conjunto de dados é de largura fixa, a área "All Patterns" será a única seleção disponível. Se o conjunto de dados não for inferido como largura fixa, você verá várias categorias de padrões.

  6. Nos cartões de sugestão, clique em "Split".
  7. Feche o painel "Column Details".
  8. Na janela de pré-visualização do Transform, verifique se as divisões de coluna estão aparentemente corretas.
    1. Se uma coluna contiver várias colunas de dados, clique em Editar.
    2. Verifique se você está dividindo com base em números de posição, o que significa que as divisões de coluna são feitas com base no número de caracteres no lado esquerdo de cada linha.
    3. É possível que a etapa da receita seja semelhante a esta:

      Nome da transformação Split columns by positions
      Parâmetro: coluna a ser dividida column1
      Parâmetro: opção By positions
      Parâmetro: posições 7, 67, 117, 167, 217, 221, 239, 251, 253, 303, 315, 317, 329, 341, 391, 400, 512, 560, 610, 630, 650, 660
    4. Na lista de valores para posições, insira um novo número de posição para a coluna ou as colunas que contenham várias colunas de dados.
    5. Verifique as alterações no painel "Transform Preview".
  9. Clique em Adicionar.
  10. Verifique se as colunas estão divididas corretamente.
  11. Use o passo a seguir para remover o espaço em branco de cada valor de célula.

    Nome da transformação Edit column with formula
    Parâmetro: coluna *
    Parâmetro: fórmula TRIM($col)
  12. Clique em Adicionar.
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.