異常検出の概要
異常検出は、特定のデータセット内のデータの偏りを特定するために使用できるデータ マイニング手法です。たとえば、特定の商品の返品率がその商品のベースラインから大幅に増加している場合、商品の欠陥や不正行為の可能性を示している可能性があります。異常検出を使用すると、技術的な問題などの重大なインシデントや、消費者の行動の変化などを検出できます。
異常検知の課題の一つは、どのようなデータを異常と判断するかです。異常を識別するラベル付きデータがある場合は、次のいずれかの教師あり ML モデルで異常検知を行うことができます。
- 線形回帰モデルとロジスティック回帰モデル
- ブーストツリー モデル
- ランダム フォレスト モデル
- DNN とワイド&ディープモデル
- AutoML モデル
どのようなデータが異常かわからない場合や、モデルをトレーニングするためのラベル付きデータがない場合は、教師なし ML を使用して異常検知を行うことができます。次のいずれかのモデルで ML.DETECT_ANOMALIES
関数を使用して、トレーニング データまたは新しいサービスデータの異常を検出します。
データの種類 | モデルタイプ | ML.DETECT_ANOMALIES の処理 |
---|---|---|
時系列 | ARIMA_PLUS
|
時系列の異常を検知します。 |
ARIMA_PLUS_XREG
|
外部回帰関数を使用して時系列の異常を検出します。 | |
独立同分布確率変数(IID) | K 平均法 | 入力データから各クラスタ セントロイドまでの正規化距離の中で最短の距離に基づいて異常を検知します。正規化距離の定義については、ML.DETECT_ANOMALIES 関数の K 平均法モデルの出力をご覧ください。 |
オートエンコーダ | 平均二乗誤差の観点から再構成損失に基づいて異常を検知します。詳細については、ML.RECONSTRUCTION_LOSS をご覧ください。ML.RECONSTRUCTION_LOSS 関数は、あらゆる種類の再構成損失を取得できます。 |
|
PCA | 平均二乗誤差の観点から再構成損失に基づいて異常を検知します。 |