異常偵測簡介

異常偵測是一種資料探勘技術,可用來找出特定資料集中的資料偏差問題。舉例來說,如果特定產品的退貨率攀升,比該產品的基準值高出許多,可能表示該產品有瑕疵,或疑似發生詐欺事件。您可以運用這項技術來偵測重大事件,如技術問題,或消費者行為變動等潛在機會。

使用異常偵測功能時,會面臨一項挑戰,就是如何判斷哪些資料屬於異常資料。如果您有標示可識別異常值的資料,可以使用 ML.PREDICT 函式搭配下列任一監督式機器學習模型,執行異常偵測:

如果您不確定哪些資料算是異常資料,或是沒有標記資料可用於訓練模型,可以使用非監督式機器學習來執行異常偵測。搭配下列任一模型使用 ML.DETECT_ANOMALIES 函式,即可偵測訓練資料或新服務資料中的異常狀況:

資料類型 模型類型 ML.DETECT_ANOMALIES 的作用
時間序列 ARIMA_PLUS 偵測時間序列中的異常狀況。
ARIMA_PLUS_XREG 使用外部回歸變項偵測時間序列中的異常狀況。
獨立同分布隨機變數 (IID) K-means 根據從輸入資料到各個叢集質心之間的歸一化距離,找出最短距離,進而偵測異常狀況。如要瞭解歸一化距離的定義,請參閱 ML.DETECT_ANOMALIES 函式的 k-means 模型輸出內容
Autoencoder 根據重建損失 (以均方誤差表示) 偵測異常狀況。詳情請參閱 ML.RECONSTRUCTION_LOSSML.RECONSTRUCTION_LOSS 函式可擷取所有類型的重建損失。
PCA 根據均方誤差的復原損失偵測異常狀況。

只要使用 CREATE MODEL 陳述式和推論函式中的預設設定,即使沒有太多機器學習知識,也能建立及使用異常偵測模型。不過,瞭解機器學習開發的基本知識,有助您最佳化資料和模型,進而獲得更優異的結果。建議您參考下列資源,熟悉機器學習技術和程序: