分析多個資料欄

本節說明對多個資料欄所儲存的資料執行分析時使用的一些技術。例如,您想要分析身高和體重的組合。部分選項如下:

  • 將維度合併成單一指標。 例如,您可以使用 BMI (身體質量指數) 計算方式組合身高和體重。接著,使用 Cloud Dataprep by TRIFACTA® 的可用離群值分析功能。 您可以在下方查看將多個資料欄中的類似資料合併成一個資料欄值,以便分析的方法。

  • 標記個別資料欄的離群值,此選項或許會指定每個資料欄的加權因子 (例如,0.5)。加總離群值及其權重。
  • 延遲分析,直到資料到達目標系統為止。

如果多個資料欄含有同質資料 (例如,單一資料列記錄了多個個別事件),您可以使用不同的方法來計算指標。請參閱跨資料欄計算指標

在某些情況下,您可能需要識別多個資料欄中的離群值。例如,您的資料集包含一組人在三次不同測驗中的成績。資料欄可能如下所示:

  • LastName
  • FirstName
  • TestScore1
  • TestScore2
  • TestScore3

大部分的計算 (例如標準差) 只適用於資料的單一資料欄。若要對全部三個資料欄執行分析,您必須將上述資料集重新塑形,使其如下所示:

  • LastName
  • FirstName
  • TestNumber
  • TestScore

此步驟會在下方概述本範例的工作流程。本節最後會提供完整的方案。

步驟:

  1. 將 TestScores 資料集載入轉換頁面。資料集應該已經分割成五個不同的資料欄。
  2. 三個並排列出的資料欄是已在資料透視表中整理好的資料。若要細分這個資料,您必須解除資料透視,這會讓資料細分成 key 資料欄 (含有 TestScore1TestScore2TestScore1) 及 value 資料欄 (含有個別測驗成績)。

    轉換名稱 Unpivot columns
    參數:資料欄 TestScore1,TestScore2,TestScore3
    參數:群組大小 1
  3. 將產生的測驗成績資料欄重新命名為 TestScore
  4. 使用下列指令擷取 key 資料欄值中的數字資訊:

    轉換名稱 Extract text or pattern
    參數:要從中擷取內容的資料欄 key
    參數:選項 Custom text or pattern
    參數:要擷取的文字 `{digit}`
  5. key2 資料欄現在只包含數字資料。將此資料欄重新命名為 TestNumber。您現在可以刪除 key 資料欄。
  6. 資料集不包含主鍵,資料集欄位的每一列皆含有不重複 ID。組合名字 (LastName)、姓氏 (FirstName) 及測驗成績 (TestNumber) 就可以成為資料集中每一列的不重複 ID。

    轉換名稱 Merge columns
    參數:資料欄 LastName,FirstName,TestNumber
    參數:分隔符 '-'
  7. 將新資料欄重新命名為 TestID。通常主鍵會列為資料集中的第一個欄位。您可以將此資料欄移到 LastName 資料欄前面。
  8. 您可能已注意到,資料仍然依照姓名 (名字加姓氏) 及測驗分數整理,所以個人的測驗會散落在整個資料集中。若要重新整理資訊,您可以使用下列指令重新匯總資料:

    轉換名稱 Pivot table
    參數:資料列標籤 LastName,FirstName,TestNumber,TestID
    參數:值 SUM(TestScore)
    參數:要建立的資料欄數上限 1

    提示:上述指令保留了已取得的測驗分數所有例項。如果您只想知道平均測驗成績,您可以移除 TestNumberTestID 群組,然後將 SUM 函式改為 AVERAGE。這樣您就可以在結果中看到每位考生的成績平均。

  9. 您可以重新命名匯總資料欄。您的最終資料集看起來應類似下方:

圖:測驗成績的單一資料欄

現在,您的資料欄已合併成單一資料欄,您可以使用單一資料欄轉換和函式來執行分析。

如要進一步瞭解如何識別這個資料中的離群值,請參閱尋找離群值

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁