Analisar em várias colunas

Nesta seção você encontra algumas técnicas para realizar análises em dados armazenados em várias colunas. Por exemplo, você pode querer analisar combinações de altura e peso. Algumas opções:

  • Consolide as dimensões para uma única métrica. Por exemplo, altura e peso podem ser combinados usando um cálculo de IMC (índice de massa corporal). Em seguida, use os recursos de análise atípica disponíveis no Cloud Dataprep by TRIFACTA® INC.. A seguir, você pode revisar um método para reunir dados semelhantes de várias colunas em uma única coluna para análise facilitada.

  • Indique os valores atípicos das colunas individuais, dando a cada coluna um fator de ponderação (por exemplo, 0,5). Some os valores atípicos e os respectivos pesos juntos.
  • Adie a análise até que os dados tenham chegado ao sistema de destino.

Se tiver dados homogêneos em várias colunas, como vários eventos individuais gravados em uma única linha, você poderá usar um método diferente para calcular métricas. Consulte Calcular métricas em colunas.

Em alguns casos, você precisará identificar dados atípicos em várias colunas de dados. Por exemplo, você tem um conjunto de dados contendo pontuações de três testes separados, realizados por um conjunto de indivíduos. As colunas podem ser semelhantes a estas:

  • Sobrenome
  • Nome
  • Pontuação de teste1
  • Pontuação de teste2
  • Pontuação de teste3

A maioria dos cálculos, como o desvio padrão, funciona para uma única coluna de dados. Para realizar análises em todas as três colunas, é necessário reformular o conjunto de dados acima para se parecer com o seguinte:

  • Sobrenome
  • FirstName
  • TestNumber
  • Pontuação do teste

As etapas a seguir descrevem o fluxo de trabalho para este exemplo. A receita completa é fornecida na parte inferior desta seção.

Etapas:

  1. Carregue o conjunto de dados TestScores na página "Transformer". É necessário que ele já esteja dividido em cinco colunas separadas.
  2. As três colunas listadas lado a lado são dados que foram organizados em uma tabela dinâmica. Para detalhar esses dados, remova-os da tabela dinâmica, que divide os dados em uma coluna key (contendo TestScore1, TestScore2, TestScore1) e uma coluna value (contendo pontuações de teste individuais).

    Nome da transformação Unpivot columns
    Parâmetro: colunas TestScore1,TestScore2,TestScore3
    Parâmetro: tamanho do grupo 1
  3. Renomeie a coluna de pontuação de teste gerada para TestScore.
  4. As informações numéricas nos valores da coluna key podem ser extraídas usando o seguinte código:

    Nome da transformação Extract text or pattern
    Parâmetro: coluna da qual será extraída key
    Parâmetro: opção Custom text or pattern
    Parâmetro: texto a ser extraído `{digit}`
  5. A coluna key2 contém apenas os dados numéricos agora. Renomeie essa coluna para TestNumber. Agora você pode excluir a coluna key.
  6. O conjunto de dados não contém uma chave primária, cujo campo contém um identificador exclusivo para cada linha. A combinação de sobrenome, nome e número de teste é um identificador único para cada linha no conjunto de dados:

    Nome da transformação Merge columns
    Parâmetro: colunas LastName,FirstName,TestNumber
    Parâmetro: separador '-'
  7. Renomeie a nova coluna como TestID Normalmente, as chaves primárias são listadas como o primeiro campo em um conjunto de dados. Pode ser útil mover a coluna para antes da coluna LastName.
  8. Você pode ter notado que os dados ainda estão organizados por nome (nome e sobrenome) e número de teste, de maneira que os testes de um indivíduo estão espalhados por todo o conjunto de dados. Para reorganizar as informações, agregue novamente os dados:

    Nome da transformação Pivot table
    Parâmetro: rótulos da linha LastName,FirstName,TestNumber,TestID
    Parâmetro: valores SUM(TestScore)
    Parâmetro: número máximo de colunas a serem criadas 1

    Dica: o exemplo acima contém todas as instâncias de testes realizados. Se você está interessado apenas na pontuação média de teste, pode remover os agrupamentos TestNumber e TestID e a mudança da função SUM para AVERAGE. Nos resultados, você tem uma média para cada pessoa que fez o teste.

  9. Você pode renomear a coluna de agregação. O conjunto de dados final será semelhante ao seguinte:

Figura: coluna única de pontuações de teste

Agora que suas colunas de dados foram consolidadas em uma única coluna, você pode usar as transformações e funções de coluna única para realizar análises.

Para saber mais sobre como identificar valores atípicos nesses dados, consulte Localizar valores atípicos.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.