Localizar outliers

Antes de começar a realizar análises em um conjunto de dados, é importante identificar e reconhecer valores e padrões de dados atípicos. Valores ou padrões incomuns podem dar origem aos seguintes dados:

Nesta seção, você encontra orientações sobre como localizar esses padrões de dados em colunas individuais.

OBSERVAÇÃO: a análise de tendências e valores atípicos em várias colunas requer técnicas diferentes. Consulte Analisar em várias colunas.

Valores outliers de coluna única

No Cloud Dataprep by TRIFACTA® INC., há recursos visuais e informações estatísticas para localizar e avaliar rapidamente as anomalias em colunas individuais.

Histograma de dados

Você pode usar a barra de qualidade de dados e o histograma para localizar valores incomuns nos dados da coluna. No exemplo a seguir, você verá um conjunto de dados que contém duas colunas com dados atípicos. As duas primeiras linhas são valores outliers, e as linhas subsequentes são dados com padronização consistente:

Figura: anomalias numéricas e de strings

Dados numéricos

A coluna col-numbers contém 100 valores aleatórios de 0 a 10 e valores singleton -100 e 100.

No histograma, você pode ver os valores atípicos nos extremos do gráfico. Observe a ligeira distinção visual entre os dois valores extremos e os valores ao lado deles, que não estão representados nos dados da coluna.

Dica: em um histograma para dados numéricos, a propagação entre os valores extremos e os mais frequentes é uma sugestão visual da existência de valores atípicos.

Para dados numéricos, o intervalo de valores é exibido como parte do histograma. Nesse conjunto de dados, os valores extremos são singletons. Se um conjunto de dados contiver mais exemplos de valores atípicos, é importante investigar mais.

OBSERVAÇÃO: nos conjuntos de dados numéricos, uma alta contagem de valores atípicos pode ser estatisticamente significativa. Revise esses valores e dados relacionados em outras colunas antes de executar operações para alterar ou remover essas linhas.

Contagens significativas de valores incomuns

Quando os dados contiverem um número significativo de valores específicos, é recomendável analisá-los para ver se esses valores têm significado. Eles podem ser marcadores de posição para valores ausentes. Consulte Localizar dados ausentes.

Para dados numéricos, desconfie da ocorrência dos seguintes valores:

Valor suspeitoMotivo
-1Nos dados gerados pelo sistema, -1 é frequentemente um indicador de um resultado com algum tipo de falha.
0Alguns sistemas preencherão valores numéricos ausentes com o número 0. Recomendamos verificar o significado do valor 0 no conjunto de dados.
555-####Nos Estados Unidos, o prefixo 555 de números de telefone nunca corresponde ao número de telefone de uma pessoa. Esses números de telefone informativos não são considerados valores válidos para os dados individuais.
65535

Nas versões mais antigas do Microsoft Excel, 65.535 era o número máximo de linhas permitidas em uma planilha.

OBSERVAÇÃO: 65.536 equivale a 216, que é o número máximo de bits de dados em um sistema de 16 bits.

2147483647Esse valor é o maior número inteiro positivo que pode ser armazenado em um tipo de dados int por sistemas de 32 bits, que ainda são fontes de dados. Se você vir esses valores, o sistema de origem pode não ter sido capaz de representar o valor verdadeiro e escreveu esse valor.
4294967295Esse é o maior valor bruto que pode ser armazenado em sistemas de 32 bits. Se você vir esses valores, o sistema de origem pode não ter sido capaz de representar o valor verdadeiro e escreveu esse valor.
January 1st, 1900Esse valor é a primeira data reconhecida pelo Microsoft Excel. A data verdadeira pode não ser representada com precisão nos dados.
January 1st, 1904
Esse valor é a primeira data reconhecida pelo Microsoft Excel para Macintosh.
00:00:00 UTC on January 1, 1970Esse valor é a primeira data reconhecida nos valores de carimbo de data/hora UTC. Os carimbos de data/hora UTC são gravados como o número de milissegundos desde esse momento, armazenados como um inteiro de 32 bits assinado. Como os valores de data e hora podem ser representados em muitos formatos diferentes, recomendamos identificar esses valores em relação aos formatos de data em seu conjunto de dados.
03:14:07 UTC on Tuesday, 19 January 2038

Esse valor é a data mais recente reconhecida nos valores do carimbo de data/hora UTC. Como os valores de data e hora podem ser representados em muitos formatos diferentes, recomendamos identificar esses valores em relação aos formatos de data em seu conjunto de dados.

  • Este limite geralmente é conhecido como o problema "Ano 2038".

Dados de string

A coluna col-strings contém aproximadamente 25 valores para orange, red, green, yellow e duas instâncias de supercalifragilisticexpialidocious.

OBSERVAÇÃO: para dados baseados em strings, os valores atípicos podem ser identificados como strings com uma baixa contagem de instâncias. Essas são as pilhas mais curtas do histograma.

Detalhes da coluna

No painel "Detalhes da coluna", você pode revisar estatísticas detalhadas sobre os valores na coluna selecionada atualmente, incluindo dados em valores abertos. Na página "Transformer", selecione Column Details na lista suspensa da coluna.

Dica: no painel "Detalhes da coluna", você pode selecionar valores atípicos específicos para mostrar sugestões. Isso permite que você tome medidas em relação aos valores identificados como atípicos pela plataforma.

Figura: valores atípicos em "Column Details"

Estatísticas de "Column Details"

"Column Details" oferece informações sobre os seguintes itens:

  • contagem de valores válidos, sem correspondência e ausentes
  • contagem de instâncias de valores
  • mínimo, máximo e média
  • valores atípicos (veja a seguir)
  • quartis mais baixos e mais altos
  • desvio padrão

OBSERVAÇÃO: para tipos de dados baseados em strings, essas estatísticas pertencem ao comprimento da string.

Dica: qualquer barra verde em "Detalhes da coluna" pode ser selecionada para solicitar sugestões sobre ações, incluindo valores em "Atípicos", "Histogramas de valores" e "Valores frequentes". Se precisar, selecione vários valores.

Consulte o painel Detalhes da coluna.

Outliers

No Cloud Dataprep by TRIFACTA INC., um conjunto especial de cálculos é usado para identificar valores designados como outliers.

Para mais informações sobre esses e outros cálculos no painel "Detalhes da coluna", consulte Referência de estatísticas da coluna.

Ajustar cálculos de desvio padrão

Mesmo que as informações de desvio padrão estejam disponíveis nos detalhes da coluna, considere gerar seu próprio cálculo de desvio padrão. Por exemplo, a transformação a seguir gera uma nova coluna que calcula o número de desvios padrão que um valor de coluna está em relação ao valor médio da coluna:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula (col_numbers - AVERAGE(col_numbers)) / STDEV(col_numbers)

Em seguida, você pode calcular sua própria função de valores atípicos, usando algo como a instrução a seguir, que entende que a coluna derivada acima foi renomeada pra col_numbers_stdev e identifica os valores atípicos que estão a mais de quatro desvios padrão da média:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula ABS(col_numbers_stdev)> 4

A função acima gera valores booleanos em uma nova coluna, definindo o valor como true se o valor absoluto do desvio padrão de col_numbers_stdev for superior a 4. Em seguida, você pode executar operações com base nos valores escritos nessa coluna ou deixar a coluna como está para ferramentas de análise downstream.

A função de variância também é compatível.

Métodos para a fixação de valores atípicos de uma coluna

Depois de ter identificado os valores atípicos em sua coluna, é necessário determinar se eles são válidos ou inválidos no conjunto de dados. Por exemplo, um valor 0 pode ser uma medida válida ou pode ter sido inserido por falta de um valor válido.

Para valores inválidos, faça o seguinte:

  • Corrija os valores. A correção pode exigir a conversão dos valores a fim de torná-los válidos para o tipo de dados da coluna. Por exemplo, na importação, os valores referentes a 0 e 1 podem ser escritos como false ou true. As etapas a seguir os convertem de volta em valores numéricos:

    Nome da transformação Edit column with formula
    Parâmetro: colunas col_numbers
    Parâmetro: fórmula IF((col_numbers == 'false'),'0',col_numbers)

    Nome da transformação Edit column with formula
    Parâmetro: colunas col_numbers
    Parâmetro: fórmula IF( (col_numbers == 'true'),'1',col_numbers)
  • Exclua as linhas. Se a remoção desses registros não esconder os dados, você pode criar uma instrução simples de exclusão. Por exemplo, a instrução a seguir exclui as linhas em que o valor na coluna col_numbers é inferior a 25:

    Nome da transformação Filter rows
    Parâmetro: condição Custom formula
    Parâmetro: tipo de fórmula Custom single
    Parâmetro: condição col_numbers < 25
    Parâmetro: ação Delete matching rows

Para valores válidos, faça o seguinte:

  • Deixe-os como estão. Se os dados forem válidos, não os remova a menos que você tenha um motivo explícito para fazê-lo.

  • Converta em valores mais significativos. Você pode usar a transformação set com o intuito de alterar os valores atípicos para valores que são válidos para fins de análise.

    OBSERVAÇÃO: lembre-se de que a mudança de valores pode afetar a validade da análise estatística.

    Veja um exemplo de substituição, em que os valores na coluna col_numbers que estão abaixo de 25 são definidos para o valor médio da coluna. Caso contrário, o valor atual é usado:

    Nome da transformação Edit column with formula
    Parâmetro: colunas col_numbers
    Parâmetro: fórmula IF((col_numbers < 25), AVERAGE(col_numbers), col_numbers)
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.