Criar perfil dos dados de origem

Pode ser útil executar um perfil dos dados importados da origem. Assim que você criar uma receita a partir de uma origem, poderá executar um job para gerar o perfil desse conjunto.

Ao carregar os dados na página "Transformador" e criar um perfil para eles, você poderá avaliar o seguinte:

  • Identificar problemas na fonte e possivelmente corrigi-los no sistema de origem.
  • Criar um valor de referência para avaliar o trabalho de conversão de dados feito no Cloud Dataprep by TRIFACTA®.
  • Identificar valores ausentes ou não correspondentes.

Dica: também é possível usar essa técnica para gerar uma saída dos seus dados de origem, o que é útil se você não tiver acesso de leitura à origem fora do Cloud Dataprep by TRIFACTA.

Passos:

  1. Crie um conjunto de dados importado da origem. Adicione-o a um fluxo. Consulte a página Importar dados.
    1. Dependendo de como seus dados estão estruturados, você pode desabilitar "Detectar estrutura". Para mais informações, consulte Etapas de análise inicial.
  2. Em "Visualização de fluxo", crie uma receita para o conjunto de dados importado. Consulte a Página "Visualização de fluxo".
  3. Em "Visualização de fluxo", edite a receita recém-criada. Ela será aberta na página "Transformador". Consulte a página "Transformer".
  4. Se necessário, adicione uma etapa de cabeçalho ao conjunto de dados.
  5. Clique em Executar job.
  6. Na página "Executar job", selecione as seguintes opções:
    1. Formato CSV (você precisa de pelo menos um formato para gerar o perfil do conjunto de dados).
    2. Selecione os resultados do perfil.
  7. Clique em Executar job.
  8. Quando os resultados forem gerados, clique em Ver resultados.

  9. Um perfil do conjunto de dados será exibido.

No perfil gerado, você pode identificar:

  • valores ausentes ou sem correspondência em cada coluna;
  • detalhamento estatístico por quartil;
  • o tamanho inicial do conjunto de dados e a velocidade de base da execução do job.

Dica: é possível anotar as estatísticas gerais referentes ao conjunto de dados, o que pode ser útil ao validar as alterações que você aplicou por meio da receita.

Também é possível fazer o download do conjunto de dados para manutenção de registros. Consulte Página "Detalhes do job".

Preservar o perfil visual da origem

Se você quiser preservar a capacidade de executar um perfil ou coletar resultados da sua origem, faça o seguinte:

  1. Na Visualização de fluxo, selecione o roteiro que foi usado para criar o perfil de origem.
  2. Renomeie esse roteiro para SourceData.
  3. Crie uma saída desse roteiro. Execute o job se você ainda não tiver criado o perfil visual.
  4. Selecione o roteiro novamente. Agora clique em Adicionar novo roteiro.
  5. Edite esse novo roteiro e desenvolva suas etapas de transformação.
  6. Sempre que você precisar gerar o perfil da origem, selecione o roteiro SourceData e escolha a saída nele. Depois, execute um job para essa finalidade.

    Dica: essa técnica é útil para substituir o conjunto de dados de origem por dados atualizados periodicamente.

Consulte Página "Visualização de fluxo".

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.