Painel de detalhes da coluna

No painel "Column Details", você pode revisar detalhes adicionais sobre uma coluna do conjunto de dados. Selecione "Column Details" em qualquer menu de coluna ou no menu "Action" do navegador da coluna.

Dica: use o painel "Column Details" para explorar valores em uma coluna individual, quando o contexto do valor não é importante para a exploração atual. Por exemplo, você pode identificar valores atípicos para a coluna ou comparar o número de valores únicos com o número de linhas para determinar se a coluna pode ser um valor-chave.

Guia "Overview"

Figura: painel "Column Details" - guia "Overview"

Estatísticas das colunas:

Você pode usar essa visualização para rever contagens básicas e porcentagens dos valores na coluna atualmente selecionada. Além dos cálculos básicos em valores válidos, incompatíveis e ausentes, você pode ver divisões para os valores mais frequentes e os valores atípicos.

OBSERVAÇÃO: antes da execução do job, as informações de perfil, como as estatísticas das colunas, são contagens exatas da amostra que está atualmente carregada. Depois que o job é executado, os resultados detalhados na página "Job Results" podem incluir estimativas para algumas métricas e contagens, dependendo da escala do conjunto de dados.

Dependendo do tipo de dados da coluna, estatísticas adicionais fornecem informações sobre qualidade e variação de dados. Para mais informações, consulte Referência de estatísticas de colunas.

Ações:

  • Para alterar o tipo de dados, clique no indicador de tipo ao lado do título da coluna no painel "Column Details".
  • Para executar comandos na coluna, selecione no menu suspenso ao lado do título da coluna. Para mais informações, consulte Menus da coluna.
  • Use a barra de qualidade de dados para selecionar categorias de valores: válido, incompatível ou ausente. O painel de contexto é atualizado com base na sua seleção com as etapas recomendadas da receita. Consulte o painel Selection Details.

Guia "Patterns"

Na guia "Patterns", você pode verificar os padrões identificados pela plataforma nos dados da coluna selecionada e, em seguida, criar etapas com base em padrões que selecionou. O perfil de padrões automaticamente encontra e agrupa grupos de valores da coluna com base em semelhanças em formato e estrutura, como números de telefone, endereços, entradas de registro e campos de nome de diferentes formatos. Por exemplo, se alguns dos valores do endereço do conjunto de dados incluírem números de apartamentos, você poderá criar uma transformação split com base em um padrão que inclua os números do apartamento.

OBSERVAÇÃO: nesta guia, a contagem de valores e a categoria all patterns não incluem valores ausentes.

OBSERVAÇÃO: colunas largas, como matrizes, objetos ou texto de formato livre, podem levar algum tempo para terem o perfil criado.

  • Cada valor não vazio na coluna é representado por um dos padrões exibidos. Os padrões são especificados como uma combinação de valores literais e padrões do Cloud Dataprep. Para mais informações sobre esses padrões, consulte Correspondência de texto.
  • Os padrões podem ser mais generalizados do que as restrições do tipo de dados da coluna.
  • Os valores de token são padrões do Cloud Dataprep sem colchetes.

Figura: painel "Column Details" - guia "Patterns"

Todos os valores que não estão em branco são capturados na categoria all patterns que pode ser expandida para exibir os padrões que capturam subconjuntos de todos os valores. Os padrões são exibidos em uma estrutura em árvore. Cada nível inferior descreve um subconjunto do padrão pai.

Dica: passe o mouse sobre um padrão ou subpadrão para ver os valores afetados nos dados de exemplo abaixo dele.

Dica: ao selecionar um grupo de padrões, pode ser que você veja sugestões para padronizar os valores na coluna para um único formato. Em alguns casos, convém remover dados desnecessários primeiro. Por exemplo, a padronização dos números de telefone será mais fácil se os códigos de país +1 forem removidos do início dos valores.

Dica: as sugestões de padrão são criadas com base nas primeiras milhares de linhas de dados na sua amostra. Para melhores resultados, você deve gerar uma amostra aleatória com um conjunto de padrões representativos nas primeiras linhas da coluna.

Abaixo do nível superior, os padrões são exibidos em ordem de frequência decrescente na coluna, o que permite escolher o nível de granularidade em que você quer resolver problemas de dados na coluna. Para cada padrão, você pode rever as contagens de valores que correspondem ao padrão.

No exemplo acima, todos os valores que foram identificados como correspondentes ao padrão url do Cloud Dataprep estão contidos na primeira categoria.

  • Selecione um padrão para acionar um conjunto de cartões de sugestão e aplicá-los aos dados representados.
    • Quando você seleciona valores do histograma de um padrão, todas as sugestões correspondem ao padrão. Não é possível selecionar os valores que não correspondem ao padrão do histograma.
    • Para mais informações, consulte Explorar sugestões.
  • Selecione um token dentro de um padrão ou um bloco de texto destacado entre os valores de exemplo para acionar os cartões de sugestão que aplicam o token dentro do padrão.
  • Você pode modificar a sugestão selecionada no Transform Builder. Consulte Transform Builder.
    • Quando você aplica a transformação à receita, a guia "Patterns" é atualizada automaticamente.

      Dica: quando for visualizado um padrão que você quiser reutilizar, selecione o padrão e um dos cartões de sugestão e, em seguida, modifique a etapa.

  • Expanda o cursor ao lado de qualquer padrão para explorar os subpadrões que identificam subconjuntos de valores dentro do padrão mais amplo.

    OBSERVAÇÃO: o padrão Other é uma categoria especial que tem valores e contagens não reconhecidos pelo padrão ou subpadrão selecionado. Por exemplo, quando você seleciona o padrão url, o padrão Other captura os valores não URL. Quando você explora um subpadrão de URLs, a categoria Other captura os valores não reconhecidos no subpadrão.

Para mais informações sobre padronização de padrões, consulte Padronizar usando padrões.

Para mais informações sobre como padronizar valores numéricos, veja Normalizar valores numéricos.

Reutilização de padrões

Depois de selecionados, os padrões podem ser reutilizados no Transform Builder. Consulte o painel History Panel.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.