Histogramas de coluna

O gráfico de barras na parte superior de cada coluna, chamado de histograma, caracteriza os dados nessa coluna. Um histograma de coluna exibe a contagem de cada valor detectado na coluna (para dados de string) ou a contagem dos valores em um intervalo numérico (para dados de número).

Você pode usar esse histograma para identificar valores incomuns ou atípicos, que precisam ser removidos ou corrigidos.

OBSERVAÇÃO: as contagens de um histograma de coluna refletem apenas os dados na amostra na grade de dados. As contagens de todo o conjunto de dados podem ser diferentes.

Figura: histograma de coluna

Dica: quando você redimensiona a largura de uma coluna, o número de barras exibidas no histograma de coluna é alterado de acordo. Você pode usar esse redimensionamento dinâmico para alterar a granularidade exibida nos histogramas.

O conteúdo do histograma da coluna varia de acordo com o tipo de dados dela. Por exemplo:

  • Para tipos numéricos (inteiro ou decimal), cada barra abrange um intervalo de valores, e as barras são classificadas em ordem numérica.
    • Para uma barra de intervalo numérico que sobrepõe os valores de outra, os valores são inclusivos no limite inferior e exclusivos no limite superior. Por exemplo, se uma barra de histograma representa os valores 0-10, ela inclui a contagem de instâncias de 0, mas não de 10. A contagem de instâncias de 10 faz parte da barra adjacente no histograma.
    • As informações acima são relevantes somente quando há valores sobrepostos entre os intervalos de dados. Se não houver, o intervalo incluirá os valores dos limites inferior e superior.
  • Para tipos não numéricos (ou seja, "categóricos"), cada barra vertical abrange um único valor, ordenado com base nos valores que ocorrem com mais frequência.

Dica: se você passar o cursor sobre uma barra no histograma, poderá revisar o valor específico, a contagem dele e a porcentagem que ele representa do total de valores na coluna.

Quando você seleciona valores:

  • Para os valores representados pelas barras selecionadas, as linhas que os contêm são destacadas, e os cartões de sugestão são apresentados para processar esses valores.
  • Barras em outras colunas podem mudar parcialmente de cor. Este recurso, conhecido como brushing and linking, ilustra a fração dos valores da barra em outras colunas que correspondem aos valores selecionados. Ele é útil para identificar correlações nos seus dados.
Para escolher valores:
  • use CTRL e clique para selecionar vários valores distintos;
  • clique e arraste por um intervalo de valores.
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.