Etapas iniciais da análise

Quando um conjunto de dados é carregado inicialmente na página "Transformer", uma ou mais etapas podem ser adicionadas automaticamente à nova receita para ajudar a analisar os dados. As etapas adicionadas são baseadas no tipo de dados que está sendo carregado e na capacidade do aplicativo de reconhecer a estrutura deles.

Detecção automática de estrutura

OBSERVAÇÃO: por padrão, essas etapas não aparecem no painel de receitas devido à detecção automática de estrutura. Se você tem problemas com a estruturação inicial do seu conjunto de dados, pode optar por importá-lo novamente com a opção "Detect structure" desativada. Então, você poderá revisar esta seção para identificar como estruturar seus dados manualmente. Para mais informações sobre como alterar as configurações de importação de um conjunto de dados, consulte a página "Importar dados".

Nesta seção, você encontra informações sobre como aplicar as etapas de análise inicial a conjuntos de dados não estruturados importados. Essas etapas devem ser aplicadas por meio do painel de receitas.

OBSERVAÇÃO: os conjuntos de dados importados que não tiveram um esquema detectado são rotulados como conjuntos de dados não estruturados. Esses conjuntos de dados ficam marcados no aplicativo. Quando uma receita é carregada pela primeira vez na página "Transformer" para o conjunto de dados, as etapas de estruturação são adicionadas como as primeiras etapas para a receita associada, onde elas podem ser modificadas conforme necessário.

Visão geral

Quando os dados são carregados pela primeira vez, eles são inicialmente contidos em uma única coluna, então as etapas iniciais se aplicam a column1.

Etapa 1: divida as linhas. Na maioria dos casos, a primeira etapa adicionada à receita é uma transformação de Splitrows, que divide as linhas individuais com base em um padrão consistentemente reconhecido no final de cada linha. Muitas vezes, esse valor é um retorno de carro ou um retorno de carro - nova linha. Esses valores são escritos no Wrangle como \r e \r\n, respectivamente. Consulte o exemplo abaixo.

Etapa 2: divida as colunas. Em seguida, o aplicativo tenta dividir linhas individuais em colunas.

  • Se o conjunto de dados não contém esquema, a transformação Split Column é usada. Essa transformação tenta encontrar um único padrão consistente ou uma sequência de padrões em dados de linha para demarcar o final dos valores individuais (campos).

    OBSERVAÇÃO: evite criar conjuntos de dados com mais de 2.500 colunas. O desempenho pode ser significativamente prejudicado em conjuntos de dados muito grandes.

  • Se o conjunto de dados contém um esquema, essa informação é usada para demarcar as colunas no conjunto de dados.

Quando as etapas acima são concluídas com sucesso, os dados podem ser exibidos em formato tabular na grade de dados.

Etapa 3: adicione cabeçalhos de coluna. Se a primeira linha de dados contém um conjunto reconhecível de nomes de colunas, uma transformação Rename Columns with Rows pode ser aplicada, o que transforma a primeira linha de valores nos nomes das colunas.

Exemplo de receita:

  1. Nome da transformação Split into rows
    Parâmetro: coluna column1
    Parâmetro: separar \r
    Parâmetro: ignorar correspondências entre \"
    Parâmetro: caractere de escape de aspas \"
  2. Nome da transformação Split column
    Parâmetro: coluna column1
    Parâmetro: opção on pattern
    Parâmetro: padrão de correspondência ','
    Parâmetro: número de correspondências 9
    Parâmetro: ignorar correspondências entre \"
  3. Nome da transformação Add header
    Parâmetro: número da linha 1

Após essas etapas serem concluídas, o tipo de dados de cada coluna será inferido dos dados na amostra. Consulte Tipos de dados compatíveis.

Excel, CSV

Os arquivos do Microsoft Excel são convertidos internamente em arquivos CSV e depois carregados na página "Transformer". Os arquivos CSV são tratados usando as etapas gerais de análise. Consulte a seção anterior.

Para mais informações, consulte Importar dados do Excel.

JSON

Se 80% dos registros em um conjunto de dados importado são objetos JSON válidos, então os dados são analisados como JSON.

Observações:

  • Para arquivos JSON, é importante importá-los no formato não estruturado.
  • O Cloud Dataprep by TRIFACTA® requer que os arquivos JSON sejam enviados com um objeto JSON válido por linha.
    • A importação de JSON com várias linhas não é compatível.
    • Objetos JSON consistentemente malformados ou objetos que se sobrepõem a quebras de linha podem fazer com que a importação falhe.

Etapa 1: divida as linhas. Os dados de JSON são inicialmente divididos usando a transformação Splitrows.

Etapa 2: desaninhe as linhas. Depois, os dados precisam ser separados das estruturas JSON aninhadas em linhas planas. Usando a transformação Unnest Objects, o aplicativo tenta renderizar o JSON em linhas com formato consistente.

OBSERVAÇÃO: após a análise inicial, pode ser necessário aplicar a transformação Unnest Objects várias vezes às colunas individuais para desaninhar completamente os dados.

Etapa 3: excluir a origem. Se os dados não forem desaninhados com sucesso, a coluna de origem será removida com uma transformação Delete Columns.

Exemplo de receita:

Nome da transformação Split into rows
Parâmetro: coluna column1
Parâmetro: separar \n
Parâmetro: caractere de escape de aspas \"

A seguir, os valores c1 - c3 identificam as chaves usadas para demarcar nós de nível superior na fonte JSON. Eles se tornam cabeçalhos de coluna individuais na grade de dados.

Nome da transformação Unnest Objects into columns
Parâmetro: coluna column1
Parâmetro: caminhos para elementos c1,c2,c3
Parâmetro: remover elementos do original true

Se o anterior foi executado com êxito, a coluna de origem é excluída:

Nome da transformação Delete columns
Parâmetro: colunas column1

Problemas conhecidos

  • Alguns caracteres em conjuntos de dados importados, como NUL (caractere ASCII 0), podem causar problemas no reconhecimento de quebras de linha. Se a análise inicial estiver causando problemas com as quebras de linha, talvez será necessário corrigir o problema nos dados de origem antes da importação, já que a transformação Splitrows tem que ser a primeira etapa da receita.

Resolver problemas

Como corrigir problemas de análise a partir da fonte estruturada após a criação da receita

Se você descobrir que seu conjunto de dados tem problemas relacionados à análise inicial de uma fonte estruturada depois de começar a criar sua receita, use as etapas a seguir para tentar corrigir o problema.

Etapas:

  1. Abra o fluxo que contém sua receita.
  2. Selecione o conjunto de dados importado. No menu de contexto, selecione Remover estrutura....
  3. Para o conjunto de dados importado, clique em Adicionar nova receita.
  4. Faça as alterações nas etapas iniciais de análise dessa receita.
  5. Selecione a receita que você estava modificando inicialmente e, no menu de contexto, selecione como origem a nova receita.

Agora, as novas etapas iniciais de análise estão inseridas no fluxo do roteiro antes das etapas do roteiro no desenvolvimento.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.