尋找離群值

在資料集上執行數據分析之前,請務必辨識出離群值的資料模式和值。資料中的異常值或模式可能源自下列項目:

本節內容說明如何在個別資料欄中找出這些資料模式。

注意:在多個資料欄上分析趨勢和離群值,需要不同的技術,請參閱分析多個資料欄一文。

單一資料欄離群值

為了評估個別資料欄內的異常情況,Cloud Dataprep by TRIFACTA® INC. 提供了視覺化功能和統計資料資訊,以便迅速找出這些問題。

資料直方圖

可使用資料品質長條圖和直方圖,找出資料欄資料中的異常值。下列範例介紹的是資料集中含有離群值資料的兩個資料欄。前兩個資料列是離群值,接續的資料列則為模式一致的資料:

圖:數字和字串的異常情況

數字資料

col-numbers 資料欄包含 100 個 0 至10 的隨機值,且單例值為 -100 和 100。

在這張直方圖中,您可以看到圖表極端的離群值。請注意,在兩個極端值和其周遭的值之間,可以看出細微的差異,而並未顯示在資料欄的資料中。

提示:在數字資料直方圖中,極端值和較常見值之間的延伸部分,即是離群值的視覺化提示。

若為數字資料,會將值的範圍顯示為直方圖的一部分。在此資料集中,極端值為單例。如果資料集含有更多離群值的例項,請進一步調查。

注意:在數字資料集內,離群值的數量相當高的話,在統計數據方面可能相當重要。在您執行變更或移除這類資料列的作業前,請先在其他資料欄中檢查這些值和相關資料。

數目顯著的異常值

當資料中有特定值的數目相當顯著時,請檢查並判斷這些值是否有其意義。這些值可能只是遺漏值的預留位置。請參閱尋找遺失資料一文。

若為數字資料,出現下列值時需要特別留意:

可疑值原因
-1系統中產生的資料,-1 通常為某種失敗結果的指標。
0部分系統會用數字 0 將遺漏的數字值填滿,請確認資料集中 0 值代表的意義。
555-####在美國,手機號碼的前置碼 555 一律不對應到個人的手機號碼。這些資訊性的電話號碼不應視為有效的個人資料值。
65535

在舊版 Microsoft Excel 中,單一試算表可容納的資料列數上限為 65,535 行。

注意:65,536 等於 216,在 16 位元系統中是資料位元數的數值上限。

2147483647此值為 32 位元系統 int 資料類型所能儲存的最大正整數,該系統仍為資料的來源。如果看到這些值,代表來源系統無法顯示真正的值,而改用此值替代。
4294967295此值是可以儲存於 32 位元系統中的最大原始值。如果看到這些值,代表來源系統無法顯示真正的值,而改用此值替代。
January 1st, 1900此值為 Microsoft Excel 可辨識的最早日期。在您的資料中可能無法正確顯示真正的日期。
January 1st, 1904
此值為 Microsoft Excel 在 Macintosh 上可辨識的最早日期。
00:00:00 UTC on January 1, 1970此值為在世界標準時間時間戳記值中可辨識的最早日期。自此刻開始,世界標準時間時間戳記以毫秒數記錄,並以帶有正負號的 32 位元整數儲存。由於日期時間值可能會以許多不同的格式顯示,請以您的資料集所用的日期格式來辨識這些值。
03:14:07 UTC on Tuesday, 19 January 2038

此值為世界標準時間時間戳記值可辨識的最晚日期。由於日期時間值可能會以許多不同的格式顯示,請以您的資料集所用的日期格式來辨識這些值。

  • 此限制通常稱為「2038 年」問題。

字串資料

col-strings 資料欄包含用於 orangeredgreenyellow 的約 25 個值,以及 supercalifragilisticexpialidocious 的 2 個執行個體。

注意:若為以字串為主的資料,可能會將離群值識別為例項數量較少的字串。在直方圖中,這些資料的堆疊長度較短。

資料欄詳細資訊

在資料欄詳細資訊面板中,可以察看目前選取的資料欄中數值的詳細統計資料,離群值資料也包括在內。請在轉換頁面上,在資料欄的下拉式選單中選取 [資料欄詳細資訊]

提示:在資料欄詳細資訊面板中,可以選取特定的離群值,建議卡會隨之顯示,可對平台識別為離群值的值採取動作。

圖:資料欄詳細資訊中的離群值

資料欄詳細資訊的統計資料

資料欄詳細資訊可提供以下資訊:

  • 有效、不相符和遺漏的值的數量
  • 值例項的數目
  • 最小值、最大值和平均值
  • 離群值的值,請見以下說明。
  • 最低和最高的四分位數
  • 標準差

注意:若為字串為主的資料類型,這些統計資料則與字串長度有關。

提示:在資料欄詳細資訊中,選取任一個綠色長條,都會顯示出可供採取動作的建議資訊卡,「離群值」、「值直方圖」和「常見值」圖表內的值也包含在內。可視需求選取多個值。

請參閱資料欄詳細資訊面板一文。

離群值

Cloud Dataprep by TRIFACTA INC. 使用一系列特別的運算,來辨識指定為離群值的值。

如需進一步瞭解「Column Detail」(資料欄詳細資訊) 面板中的這類運算和其他計算方式,請參閱資料欄統計參考資料一文。

調整標準差計算

您雖可在「資料欄詳細資訊」中取得標準差資訊,但可能會想要產生專屬的標準差計算結果。舉例來說,下列轉換會產生新的資料欄,該資料欄會計算資料欄值與該欄平均值之間的標準差數量。

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 (col_numbers - AVERAGE(col_numbers)) / STDEV(col_numbers)

接著,您可以用類似如下的函式,計算您專屬的離群值函式,以下是假設上述所產生的資料欄已重新命名為 col_numbers_stdev,且會辨識出比平均值高出 4 個標準差的離群值:

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 ABS(col_numbers_stdev)> 4

上述函式會在新資料欄中產生布林值,如果 col_numbers_stdev 標準差的絕對值大於 4,即會將該值設為 true。接著可以根據寫入此資料欄的值來執行作業,或保留該欄以供下游分析工具使用。

也支援變異數函式。

修正單一資料欄離群值的方法

辨識出您的資料欄內屬於離群值的值後,則必須決定這些值對資料集是否有效。例如,0 值可能是有效測量結果,也有可能是因為缺少有效值而插入的值。

若為有效值:

  • 修正值。修正動作可能需要將值轉換為可用於資料欄資料類型的有效值。舉例而言,在匯入時,01 的值可能會以 falsetrue 寫入。下列步驟會將其轉換回數字值:

    轉換名稱 Edit column with formula
    參數:資料欄 col_numbers
    參數:公式 IF((col_numbers == 'false'),'0',col_numbers)

    轉換名稱 Edit column with formula
    參數:資料欄 col_numbers
    參數:公式 IF( (col_numbers == 'true'),'1',col_numbers)
  • 刪除資料列。 如果移除這些資料不會導致資料偏移,則可建立簡單的刪除陳述式。例如以下函式會刪除值 col_numbers 資料欄的值小於 25 的資料列:

    轉換名稱 Filter rows
    參數:條件 Custom formula
    參數:公式類型 Custom single
    參數:條件 col_numbers < 25
    參數:動作 Delete matching rows

若為有效值:

  • 無須動作。如果是有效資料,除非有確切的原因需要移除資料,否則請勿這樣做。

  • 轉換為更具意義的值。 您可以使用 set 轉換,將離群值變更為可用於分析用途的有效值。

    注意:請注意,變更值可能會影響統計資料分析的正確性。

    以下範例會覆寫 col_numbers 資料欄中低於 25 的值,並設為該資料欄的平均值。否則,使用目前的值:

    轉換名稱 Edit column with formula
    參數:資料欄 col_numbers
    參數:公式 IF((col_numbers < 25), AVERAGE(col_numbers), col_numbers)
本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁