Referência de estatísticas de coluna

Nesta página, descrevemos as informações estatísticas disponíveis para colunas individuais de dados.

  • As estatísticas podem variar de acordo com o tipo de dados da coluna. Por exemplo, as estatísticas retidas podem ser diferentes para estados e strings.
  • A maioria dessas estatísticas está disponível no painel de detalhes da coluna, que pode ser aberto do lado esquerdo da página "Transformer". Consulte o Painel "Column Details".

Abaixo, você pode revisar as estatísticas gerais mantidas para cada tipo de dados com o detalhamento delas em relação a cada tipo específico de dados.

OBSERVAÇÃO: antes da execução do job, as informações de perfil, como estatísticas de colunas, são contagens exatas da amostra carregada no momento. Após a execução do job, os resultados do perfil criado na página "Job Results" poderão incluir estimativas de algumas métricas e contagens, dependendo da escala do conjunto de dados.

Contagens gerais de colunas

Para qualquer seleção de valores em uma coluna, as contagens a seguir têm disponibilidade geral.

Nome da contagemDescrição
Valid ValuesContagem de valores válidos para o tipo de dados da coluna
Unique ValuesContagem de valores exclusivos. Valores duplicados não são contados.
Outlier Values

Contagem de valores que se qualificam como discrepantes. Um valor discrepante é:

  • < (25º percentil) - (2 * IQR)
  • > (75º percentil) + (2* IQR)
  • distância interquartílica (IQR, na sigla em inglês) é o intervalo de valores entre os dois trimestres intermediários, que é equivalente ao intervalo entre o 25º e 75º percentis. Portanto, nos cálculos acima, o fator IQR garante que os valores discrepantes estejam nos extremos do intervalo inteiro.
Mismatched ValuesContagem de valores que não são confirmados como o tipo de dados da coluna. Por exemplo, uma coluna de número inteiro com o valor "MISSING" resulta em um valor não correspondente.
Missing ValuesContagem de valores que não foram preenchidos

Estatísticas gerais de colunas

Estas estatísticas estão disponíveis para a maioria dos tipos de dados no navegador de colunas.

  • Para tipos de string (string, número de telefone, número de CPF ou CNPJ, booleano, endereço de e-mail, número de cartão de crédito, gênero, endereço IP, URL, código HTTP, data/hora), essas estatísticas medem o comprimento da string.
    • Para tipos estruturados de string (número de telefone, número de CPF ou CNPJ, booleano, gênero, endereço IP, código HTTP, data/hora), qualquer variação nesses números indica problemas de dados.
  • Não se aplicam a: estado
Nome da estatísticaDescrição
MinimumO valor mais baixo na coluna
Lower QuartileA mediana da metade inferior dos valores (25º percentil)
Median

O valor médio do conjunto selecionado. Por exemplo, em um conjunto de 21 valores, o valor mediano é o 11º em ordem crescente.

  • Para conjuntos de dados com um número par de valores, a mediana é a média dos dois valores intermediários.
Upper QuartileA mediana da metade superior dos valores (75º percentil)
MaximumO valor mais alto na coluna
AverageO valor médio na coluna
Standard DeviationO desvio padrão calculado para os valores selecionados.

Funções de agregação

As funções a seguir podem ser aplicadas a um conjunto de dados de colunas extraídos de uma ou mais colunas no seu conjunto. Salvo indicação em contrário, essas funções se aplicam a dados numéricos. Para mais informações, consulte Funções de agregação.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.