Calcular métricas em colunas

É possível usar uma variedade de funções matemáticas e estatísticas para calcular métricas dentro de uma coluna.

Para calcular as métricas em colunas, você pode usar uma versão generalizada do exemplo a seguir.

Origem:

O conjunto de dados rastreia o desempenho do nadador em várias séries durante uma corrida, e você quer calcular o melhor, o pior e o tempo médio em segundos de todas as três séries. Observe os dados a seguir:

RacerHeat1Aquec2Heat3
Racer X37,2238,2237,61
Racer Y41,33DQ38,04
Piloto Z39,2739,0438,85


Nos dados acima, o nadador Y foi desqualificado (DQ) na classificatória 2.

Transformação:

Para calcular as métricas, você precisa agrupar os dados em uma matriz, dividir a matriz em linhas separadas e calcular as métricas por agrupamento. Estas são as etapas:

  1. Quando os dados forem importados, talvez seja necessário criar um cabeçalho para cada linha:

    Nome da transformação Rename columns with a row
    Parâmetro: opção Use row as header
    Parâmetro: linha 1
  2. As colunas com os dados de tempo das séries podem precisar ser redigitadas. Na lista suspensa ao lado de cada nome de coluna, selecione "Tipo decimal".
  3. O valor DQ na coluna Heat2 não são dados válidos para o tipo decimal. Você pode usar a seguinte transformação para torná-lo um valor ausente. Para fins de cálculo de médias, talvez você queira ou não mudar os dados inválidos para zeros ou valores em branco. Nesse caso, substituir os dados por 0.00 gera cálculos inadequados para as métricas.

    Nome da transformação Replace text or patterns
    Parâmetro: coluna Heat2
    Parâmetro: localizar 'DQ'
    Parâmetro: substituir por ''

  4. Use o seguinte código para reunir todos os dados das séries em duas colunas:

    Nome da transformação Unpivot columns
    Parâmetro: colunas Heat1,Heat2,Heat3
    Parâmetro: tamanho do grupo 1

  5. Agora, você pode renomear as duas colunas. Renomeie key como HeatNum e value como HeatTime.

  6. Convém excluir as linhas com ausência de valor para HeatTime:

    Nome da transformação Delete rows
    Parâmetro: condição ISMISSING([value])

  7. Agora, você pode executar os cálculos nesta coluna. As seguintes transformações calculam tempos mínimos, médios e máximos para cada nadador:

    Nome da transformação New formula
    Parâmetro: tipo de fórmula Multiple row formula
    Parâmetro: fórmula MIN(HeatTime)
    Parâmetro: agrupar linhas por Racer
    Parâmetro: nome da nova coluna 'BestTime'


    Nome da transformação New formula
    Parâmetro: tipo de fórmula Multiple row formula
    Parâmetro: fórmula AVERAGE(HeatTime)
    Parâmetro: agrupar linhas por Racer
    Parâmetro: nome da nova coluna 'AvgTime'

    Nome da transformação New formula
    Parâmetro: tipo de fórmula Multiple row formula
    Parâmetro: fórmula MAX(HeatTime)
    Parâmetro: agrupar linhas por Racer
    Parâmetro: nome da nova coluna 'WorstTime'
  8. Para melhorar os dados, convém reformatar os valores na coluna AvgTime para dois pontos decimais:

    Nome da transformação Edit column with formula
    Parâmetro: colunas AvgTime
    Parâmetro: fórmula NUMFORMAT(AvgTime, '##.00')

Resultados:

Depois que você usar a transformação move para reorganizar as colunas, o conjunto de dados deverá ter a seguinte aparência:

RacerHeatNumHeatTimeBestTimeWorstTimeAvgTime
Racer XHeat137,2237,2238,2237,68
Racer XHeat238,2237,2238,2237,68
Racer XHeat337,6137,2238,2237,68
Racer YHeat141,3338,0441,3339,69
Racer YHeat338,0438,0441,3339,69
Racer ZHeat139,2738,8539,2739,05
Racer ZHeat239,0438,8539,2739,05
Racer ZHeat338,8538,8539,2739,05
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.