異常検出の概要

異常検出は、特定のデータセット内のデータの偏りを特定するために使用できるデータマイニング手法です。たとえば、特定の商品の返品率がその商品のベースラインから大幅に増加している場合、商品の欠陥や不正行為の可能性を示している可能性があります。異常検出を使用すると、技術的な問題などの重大なインシデントや、消費者の行動の変化などを検出できます。

異常検知の課題の一つは、どのようなデータを異常と判断するかです。異常を識別するラベル付きデータがある場合は、次のいずれかの教師あり ML モデルで、ML.PREDICT 関数を使用して異常検知を行えます。

どのようなデータが異常かわからない場合や、モデルをトレーニングするためのラベル付きデータがない場合は、教師なし ML を使用して異常検知を行うことができます。次のいずれかのモデルで ML.DETECT_ANOMALIES 関数を使用して、トレーニングデータまたは新しいサービスデータの異常を検出します。

データ型	モデルタイプ	`ML.DETECT_ANOMALIES` の処理
時系列	`ARIMA_PLUS`	時系列の異常を検知します。
時系列	`ARIMA_PLUS_XREG`	外部回帰関数を使用して時系列の異常を検出します。
独立同分布確率変数（IID）	K 平均法	入力データから各クラスタセントロイドまでの正規化距離の中で最短の距離に基づいて異常を検知します。正規化距離の定義については、`ML.DETECT_ANOMALIES` 関数の K 平均法モデルの出力をご覧ください。
	オートエンコーダ	平均二乗誤差の観点から再構成損失に基づいて異常を検知します。詳細については、`ML.RECONSTRUCTION_LOSS` をご覧ください。`ML.RECONSTRUCTION_LOSS` 関数は、あらゆる種類の再構成損失を取得できます。
	PCA	平均二乗誤差の観点から再構成損失に基づいて異常を検知します。

推奨される知識

CREATE MODEL ステートメントと推論関数をデフォルト設定にすると、ML の知識がなくても異常検出モデルを作成して使用できます。ただし、ML 開発に関する基本的な知識があれば、データとモデルの両方を最適化して、より良い結果を得ることができます。ML の手法とプロセスに習熟するために、次のリソースを活用することをおすすめします。