跨資料欄計算指標

您可以使用各種數學函式及統計函式來計算資料欄中的指標。

如要跨資料欄計算指標,您可以使用下列範例的通用版本。

來源:

您的資料集追蹤了賽事中多場暖身賽的游泳選手成績,而您想要以秒為單位,計算三場暖身賽中的最佳、最差和平均時間。資料如下:

RacerHeat1Heat2Heat3
Racer X37.2238.2237.61
Racer Y41.33DQ38.04
Racer Z39.2739.0438.85


在上述的資料中,Racer Y 在暖身賽 2 的成績為不合格 (DQ)。

轉換:

如要計算指標,您必須將資料組成陣列並將陣列拆分成獨立的資料列,接著再分組計算指標。步驟如下:

  1. 在匯入資料時,您可能需要建立每個資料列的標題:

    轉換名稱 Rename columns with a row
    參數:選項 Use row as header
    參數:資料列 1
  2. 含有暖身賽時間資料的資料欄可能需要重新設定類型。在每個資料欄名稱旁的下拉式選單中,選取小數類型。
  3. Heat2 資料欄中的 DQ 值對小數類型而言並非為有效資料。您可以使用下列的轉換指令,將該值轉為遺漏值。為了計算平均值,您可以選擇是否將無效資料轉成零或保留空白。在本例中,以 0.00 取代資料會造成指標計算不正確。

    轉換名稱 Replace text or patterns
    參數:資料欄 Heat2
    參數:尋找 'DQ'
    參數:替換值 ''

  4. 使用下列指令,將所有暖身賽資料彙整成兩個資料欄:

    轉換名稱 Unpivot columns
    參數:資料欄 Heat1,Heat2,Heat3
    參數:群組大小 1

  5. 您現在可以重新命名這兩個資料欄。將 key 重新命名為 HeatNum,並將 value 重新命名為 HeatTime

  6. 您可以刪除 HeatTime 中含有遺漏值的資料列:

    轉換名稱 Delete rows
    參數:條件 ISMISSING([value])

  7. 您現在可以對這個資料欄執行計算。下列的轉換指令會計算每位參賽者最短、平均 (均值) 及最長時間:

    轉換名稱 New formula
    參數:公式類型 Multiple row formula
    參數:公式 MIN(HeatTime)
    參數:資料列分組依據 Racer
    參數:新資料欄名稱 'BestTime'


    轉換名稱 New formula
    參數:公式類型 Multiple row formula
    參數:公式 AVERAGE(HeatTime)
    參數:資料列分組依據 Racer
    參數:新資料欄名稱 'AvgTime'

    轉換名稱 New formula
    參數:公式類型 Multiple row formula
    參數:公式 MAX(HeatTime)
    參數:資料列分組依據 Racer
    參數:新資料欄名稱 'WorstTime'
  8. 您可以將 AvgTime 資料欄值的格式重新設定為小數點後兩位數,讓資料更加精確:

    轉換名稱 Edit column with formula
    參數:資料欄 AvgTime
    參數:公式 NUMFORMAT(AvgTime, '##.00')

結果:

使用 move 轉換重新整理資料欄後,您應該會看到下面這樣的資料集:

RacerHeatNumHeatTimeBestTimeWorstTimeAvgTime
Racer XHeat137.2237.2238.2237.68
Racer XHeat238.2237.2238.2237.68
Racer XHeat337.6137.2238.2237.68
Racer YHeat141.3338.0441.3339.69
Racer YHeat338.0438.0441.3339.69
Racer ZHeat139.2738.8539.2739.05
Racer ZHeat239.0438.8539.2739.05
Racer ZHeat338.8538.8539.2739.05
本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁