Princípios básicos da criação de perfis

No Cloud Dataprep by TRIFACTA® INC., há representações visuais dos dados de colunas individuais e de todo o conjunto de dados. Esses perfis visuais permitem que você faça avaliações rápidas de problemas, padrões incomuns e alterações necessárias nos dados.

Dica: a criação de perfis visuais é importante especialmente no desenvolvimento de roteiros. Quando você identifica algo de interesse, pode selecionar a representação visual disso, e a plataforma solicita um conjunto de transformações sugeridas para adicionar ao roteiro. Os exemplos estão abaixo.

Para mais informações contextuais, consulte Visão geral da criação de perfis visuais.

Dados de origem do perfil

Dica: quando você carrega o conjunto de dados pela primeira vez no aplicativo, pode executar um job para criar o perfil desse conjunto antes de elaborar a receita. Os resultados e o perfil gerados são acessíveis por meio do aplicativo, o que pode ser útil para ver como o conjunto de dados mudou durante o desenvolvimento. Para mais informações, consulte Criar o perfil dos dados de origem.

Como criar perfis no aplicativo

No aplicativo Cloud Dataprep, há diversos recursos que fornecem informações visuais sobre o status de colunas individuais, dados e o conjunto de dados geral.

OBSERVAÇÃO: antes da execução do job, as informações da criação de perfis, como estatísticas de coluna, são contagens exatas da amostra carregada no momento. Depois que o job é executado, os resultados do perfil gerado na página "Resultados do job" podem incluir estimativas para algumas métricas e contagens, dependendo da escala do conjunto de dados.

Barra de status

As contagens nas linhas, colunas e tipos de dados, na amostra, atual são exibidas na parte inferior da página, na barra de status:

Dica: as contagens de amostra são usadas na página "Transformer" para a geração de perfil. Quando um perfil visual é gerado como parte do job, as contagens são extraídas de todo o conjunto de dados.

Figura: barra de status

Cabeçalho da coluna

A parte superior de cada coluna contém uma barra de qualidade de dados, que identifica os valores válidos, incompatíveis e ausentes na coluna quando comparados com o tipo de dados especificado e o histograma da coluna, que identifica o intervalo de valores na coluna.

Figura: coluna de exemplo

Barra de qualidade de dados: valores ausentes e incompatíveis

Abaixo do nome da coluna, a faixa multicolorida indica valores válidos (verdes), incompatíveis (vermelhos) e ausentes (pretos) nela quando comparados com o tipo de dados da coluna. Na imagem acima, o tipo de dados foi definido como URL.

Dica: clique nos valores ausentes ou incompatíveis na barra de qualidade de dados de uma coluna. Você recebe sugestões de transformações para corrigir ou remover esses valores.

Histograma de coluna

Cada coluna inclui um histograma dos valores. Na imagem acima, há 402 valores diferentes na coluna, e você pode ver como alguns aparecem com mais frequência que outros.

Dicas:

  • No histograma de coluna, você pode selecionar um valor de coluna e arrastá-lo para escolher um intervalo de valores para sugestões sobre transformações.
  • Os nulos são um caso especial de valores ausentes. Você pode usar a função ISNULL para identificar valores nulos em uma coluna, que aparecem na categoria de valores ausentes. Consulte Gerenciar valores nulos.
  • Quando você seleciona um ou mais valores no histograma de coluna, é possível ver os valores correspondentes aos das linhas nos histogramas para outras colunas.

Consulte Histogramas de colunas.

Detalhes da coluna: estatísticas e outliers

Na janela "Detalhes da coluna", é possível analisar as principais informações estatísticas sobre os valores em uma coluna. As estatísticas exibidas são baseadas no tipo de dados da coluna.

Para explorar os detalhes dos dados de uma coluna, selecione Detalhes da coluna, na lista suspensa da coluna específica, na grade de dados.

Figura: detalhes da coluna

Você pode revisar as principais estatísticas da coluna selecionada de acordo com o tipo de dados. A imagem acima mostra as estatísticas relevantes ao tipo de dados do URL, que é uma variação de String.

Dicas:

  • Faça uma seleção nas listas de valores superiores, incompatíveis e outros para receber uma mensagem com um conjunto de sugestões sobre como modificar as linhas selecionadas.
  • As sugestões de transformação são atualizadas com base na seleção.
  • Clique nos valores ausentes na barra de qualidade de dados para solicitar sugestões de resolução desses valores na coluna.

Consulte Painel "Detalhes da coluna".

Navegador de colunas: perfis em colunas

No navegador de colunas, é possível visualizar histogramas visuais para cada coluna no conjunto de dados e fazer seleções para identificar correlações entre valores em várias colunas. Para abrir o navegador de colunas, clique no ícone "Colunas" na barra do Transformer.

Para mais informações, consulte Painel "Navegador de colunas".

Jobs de perfil

Quando você executa o job, é possível gerar, como parte dele, um perfil visual de todo o conjunto de dados. Use o perfil gerado para simplificar a iteração na receita. A geração de perfil opcional dos resultados pode levar mais tempo.

Etapas:

  1. Na página "Transformer", clique em Run Job.
  2. Clique na caixa de seleção "Resultados do perfil".

  3. Execute o job.
  4. Quando concluído, clique no link do código do job. Em seguida, clique na guia "Perfil" na página "Detalhes do job".

Figura: perfil visual

Esse perfil visual exibe as estatísticas de todo o conjunto de dados. Como o volume de dados do conjunto inteiro pode ser muito grande, essas estatísticas podem ser aproximações. Consulte a página "Detalhes do job".

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.