建立匯總

您可以對一或多個資料欄的多組值套用匯總函式來產生匯總資料。視 Group By 轉換的設定方式而定,這些轉換的輸出內容可以是新資料表或現行資料集中的一或多個資料欄。

限制

  • Group By 轉換不支援巢狀運算式,因此您無法在計算的值中插入多個巢狀運算式。
  • Group By 轉換只支援匯總函式,詳情請參閱匯總函式

資料範例

下表包含的資料為一組學生兩天內參加四次測驗後所得的測驗成績:

StudentTestDateTestNumTestScore
Anna09/08/2018184
Ben09/08/2018171
Caleb09/08/2018176
Danielle09/08/2018187
Anna09/08/2018292
Ben09/08/2018286
Caleb09/08/2018299
Danielle09/08/2018273
Anna09/15/2018386
Ben09/15/2018399
Caleb09/15/2018386
Danielle09/15/2018380
Anna09/15/2018485
Ben09/15/2018487
Caleb09/15/2018479
Danielle09/15/2018493

匯總所有資料列 (不分組)

您可以對資料集的所有資料列執行基本計算。例如,下列轉換會建立新的資料欄,其中包含所有學生的平均測驗分數:

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 ROUND(AVERAGE(Score),2)
參數:新資料欄名稱 avg_TestScore

上述指令會產生名為 average_TestScore 的新資料欄,其中含有一個 85.19 值,這是將所有學生的測驗分數四捨五入至小數點後兩位的平均值。

注意:這些類型的匯總作業稱為一般匯總。在較大型的資料集中,一般匯總的計算作業可能會密集發生。對大量的資料列計算任何匯總函式時,請務必格外謹慎。

匯總分組的資料列

在上述的資料範例中,假設您想知道每個學生的平均分數。在這種情況下,您必須計算每個學生的平均值 (AVERAGE(TestScore))。

您在先前的轉換中使用了 New Formula 轉換,但在計算資料欄中多組值的匯總時,則必須使用 Group By 轉換:

轉換名稱 Group By
參數:分組依據 Student
參數:值 AVERAGE(TestScore)
參數:類型 Group by as new column(s)

請注意,上述的轉換指令並不包含四捨五入的函式。Group By 轉換不支援巢狀運算式。如要將值四捨五入,請在下個步驟中加入下列轉換指令:

轉換名稱 Edit column with formula
參數:資料欄 average_TestScore
參數:公式 ROUND(average_TestScore,2)

您可以將新產生的資料欄重新命名為 average_TestScorePerStudent 等名稱。請參閱重新命名資料欄

輸出資料應如下所示:

StudentTestDateTestNumTestScoreaverage_TestScorePerStudentaverage_TestScore
Anna09/08/201818486.7585.19
Ben09/08/201817185.7585.19
Caleb09/08/20181768585.19
Danielle09/08/201818783.2585.19
Anna09/08/201829286.7585.19
Ben09/08/201828685.7585.19
Caleb09/08/20182998585.19
Danielle09/08/201827383.2585.19
Anna09/15/201838686.7585.19
Ben09/15/201839985.7585.19
Caleb09/15/20183868585.19
Danielle09/15/201838083.2585.19
Anna09/15/201848586.7585.19
Ben09/15/201848785.7585.19
Caleb09/15/20184798585.19
Danielle09/15/201849383.2585.19

產生新的匯總資料表

假設您想要計算每次測驗的最低分、最高分和平均分數。在這種情況下,建立學生名稱已移除的新資料表會更加實用:

轉換名稱 Group By
參數:分組依據 TestNum
參數:值 1 MAX(TestScore)
參數:值 2 MIN(TestScore)
參數:值 3 AVERAGE(TestScore)
參數:類型 Group by as new table

產生的資料如下所示:

TestNummax_TestScoremin_TestScoreaverage_TestScore
1877179.5
2997387.5
3998087.75
4937986

提示:在此情況中,當您以全新的資料表取代現有的資料表時,不在匯總結果中的資料將會遺失。如果您想要新資料表中出現未變更過的資料欄,則可以將資料欄新增到值的清單中。在由前一方案延伸而來的方案中,您也可以考慮建立匯總資料表,以便能繼續使用資料集中的其他資料欄。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁