Visão geral da criação de perfil visual

Visão geral

No Cloud Dataprep by TRIFACTA®, a criação de perfil visual oferece visualizações interativas em tempo real do seu conjunto de dados para ajudar na descoberta, limpeza e transformação dos dados. As representações visuais são necessárias para interpretar grandes volumes de dados, e as técnicas inovadoras de criação de perfil da plataforma visualizam informações estatísticas importantes em um formato dinâmico e fácil de consumir para uma transformação mais rápida.

  • No nível da coluna individual, os perfis visuais fornecem informações estatísticas interativas visualizadas de maneira apropriada ao tipo de dados. Por exemplo, as colunas do tipo de dados CEP podem ser representadas em um mapa geográfico dos Estados Unidos.
  • Todos os perfis visuais são interativos para que você possa explorar os detalhes dos dados. Selecione um ou mais elementos em um perfil e execute ações imediatas em relação ao dados, seja por meio das etapas que você define ou das recomendações de transformação fornecidas pela plataforma.
  • A página "Transformer" exibe um conjunto de ações recomendadas a serem tomadas com base nos valores, nas linhas ou nas colunas que você seleciona na grade de dados. Essas recomendações são motivadas pela lógica da plataforma e pelas informações de uso anterior. Para saber mais informações, consulte Visão geral sobre transformação preditiva.

Os perfis visuais estão disponíveis enquanto você transforma os dados na página "Transformer", quando você explora os detalhes das colunas individuais e depois que você executa o job em escala. Cada uma dessas interfaces tem diferentes padrões de uso desenvolvidos para acelerar e simplificar a transformação de dados para essa área específica do processo.

Usos

  • Localizar anomalias. Superfícies de perfis visuais ausentes ou dados inválidos em colunas individuais. Em seguida, esses valores podem ser selecionados e transformados, conforme necessário.

  • Identificar distribuições. Na grade de dados, revise a distribuição de valores para cada coluna no conjunto de dados. Ao explorar os detalhes da coluna, você também pode identificar e selecionar valores atípicos estatísticos entre os dados dela.

  • Identificar áreas para refinamento adicional. Após a conclusão de um job, você poderá revisar seu perfil visual usando o aplicativo e, em seguida, tomar medidas a respeito dos dados problemáticos.

Exemplo

No exemplo a seguir, um conjunto de dados com informações de endereço foi carregado na página "Transformer":

Figura: conjunto de dados de exemplo

Nesse exemplo, estamos interessados em explorar as informações geográficas. Na lista suspensa da coluna Zip, selecione Detalhes da coluna.

Explorar detalhes sob demanda. Gere perfis visuais da lista suspensa da coluna.

Quando você explora os detalhes da nova coluna, pode ver a seguinte representação dos dados:

Figura: tipo de dados CEP representado como um mapa dos EUA

Neste caso, os valores na coluna "Zip" são reconhecidos como o tipo de dados CEP. Em seguida, o aplicativo representa esses valores como um mapa dos EUA, que rapidamente renderiza os dados numéricos em um formato muito mais fácil de ler e analisar.

Visualizações específicas do tipo. O perfil dos valores de coluna é representado em uma visualização específica do tipo para ajudar na rápida análise e tomada de medidas em relação a alguns ou a todos os valores na coluna.

Interfaces de criação de perfil visual

Independentemente de onde você possa interagir com dados, o perfil visual simplifica o processo.

Visualizações personalizadas. Cada interface foi otimizada conforme o escopo dos dados que ela visualiza, sejam os dados uma única coluna, a amostra inteira de um conjunto de dados ou os resultados gerados.

Grade de dados

Na página "Transformer", a grade de dados é uma representação tabular de uma amostra do seu conjunto de dados. Trata-se da interface principal onde você cria suas receitas de transformação. Ferramentas de criação de perfil:

  • Barra de qualidade de dados: na parte superior de cada coluna, veja gráficos que exibem os valores ausentes, inválidos e válidos para o tipo de dados atual da coluna. Selecione uma das categorias, e tome medidas imediatas em relação a todos os valores dessa categoria na coluna.
  • Histograma de coluna: os valores individuais na coluna são representados em um histograma na parte superior dela. Selecione um ou mais desses valores, revisar os dados relevantes e executar ações.
  • Consulte o Painel de grade de dados.

Sempre que uma transformação é selecionada ou especificada, uma visualização de seus efeitos aparece na grade de dados, incluindo qualquer alteração na barra de qualidade de dados e no histograma das colunas afetadas. Consulte Visualização da transformação.

Para saber mais detalhes sobre a transformação visual, consulte Princípios básicos da transformação.

Detalhes da coluna

Na página "Transformer", explore os detalhes estatísticos das colunas individuais, representados visualmente com base no tipo de dados da coluna. Na lista suspensa de qualquer coluna, selecione Detalhes da coluna.

Nesta interface, revise o intervalo de valores na coluna e, opcionalmente, selecionar um ou mais valores de outras colunas para ver quais valores na coluna atual são aplicáveis. As visualizações de uma coluna dependem do tipo de dados.

Consulte o painel Detalhes da coluna.

Criação de perfil de padrões

No painel "Detalhes da coluna", revise a criação de perfil dos padrões detectados nos valores da coluna selecionada. Esses padrões podem ser selecionados, o que identifica os valores relevantes na coluna correspondente ao padrão. Em seguida, use essas seleções como base para a criação de transformações que se aplicam aos valores correspondentes.

Para mais informações, consulte o painel Detalhes da coluna.

Detalhes do job

Depois que o aplicativo executou com sucesso um job em que a criação de perfil está ativada, explore uma visualização do conjunto de dados gerado na página "Detalhes do job". Consulte a página Detalhes do job.

Mecanismo de criação de perfil

Separadamente da interface do usuário, o mecanismo de criação de perfil executa os cálculos necessários para alimentar as visualizações antes da execução do job e depois que os resultados do job foram gerados.

  • Na página "Transformer", o mecanismo de perfil chamado para alterações incrementais é invocado sempre que uma etapa é adicionada à receita, assim você vê as atualizações imediatas no perfil visual de cada coluna. Ele utiliza algoritmos separados para gerar barras de qualidade de dados, histogramas de coluna, contagens de valores, distribuições de frequência e outras estatísticas relevantes. Quando você explora os detalhes da coluna, o perfil visual é o mais recente e pode ser atualizado novamente com base nas suas seleções nessa interface.
  • Durante a execução do job, ele é consultado separadamente quando a criação de perfil é executada em todo o conjunto de dados.

OBSERVAÇÃO: quando você escolhe criar o perfil dos resultados, cria duas tarefas distintas: 1) executar a receita de transformação com base na origem e 2) criar o perfil dos resultados. Devido à complexidade do cálculo para gerar os resultados interativos, uma tarefa de criação de perfil costuma levar mais tempo para ser concluída do que uma de transformação, sendo assim um elemento opcional da execução de um job.

Comparação entre métricas exatas e aproximadas em perfis visuais

Cloud Dataflow

No Cloud Dataprep by TRIFACTA, os jobs de criação de perfil são executados no Cloud Dataflow, em paralelo com o job de transformação.

Tipo de métricaMedição
Frequência (top-k)Exata
Histogramas numéricosExata
Estatísticas simples (média, stdev, mín., máx.)Exata
QuartisAproximada

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.