이상 감지 개요
이상 감지는 특정 데이터 세트의 데이터 편차를 식별하는 데 사용할 수 있는 데이터 마이닝 기법입니다. 예를 들어, 특정 제품의 반품율이 해당 제품의 기준보다 크게 증가하면 제품 결함 또는 사기 가능성을 나타낼 수 있습니다. 이상 감지를 사용하여 기술 문제와 같은 중대한 이슈 또는 소비자 행동 변화와 같은 기회를 감지할 수 있습니다.
이상 감지를 사용할 때의 한 가지 도전과제는 어떤 데이터를 이상 데이터로 간주할지를 결정하는 것입니다. 이상치를 나타내는 데이터에 라벨이 지정된 경우 다음 지도 머신러닝 모델 중 하나를 사용하여 이상 감지를 수행할 수 있습니다.
- 선형 회귀 및 로지스틱 회귀 모델
- 부스티드 트리 모델
- 랜덤 포레스트 모델
- DNN 및 와이드 앤 딥 모델
- AutoML 모델
무엇을 이상 데이터로 간주해야 하는지 확실하지 않거나 모델을 학습시킬 라벨 지정 데이터가 없는 경우 비지도 머신러닝을 사용하여 이상 감지를 수행할 수 있습니다. 다음 모델 중 하나와 함께 ML.DETECT_ANOMALIES
함수를 사용하여 학습 데이터 또는 새 서빙 데이터에서 이상치를 감지합니다.
데이터 유형 | 모델 유형 | ML.DETECT_ANOMALIES 의 역할 |
---|---|---|
시계열 | ARIMA_PLUS
|
시계열에서 이상치를 감지합니다. |
ARIMA_PLUS_XREG
|
외부 회귀를 사용하여 시계열에서 이상치를 감지합니다. | |
독립적이고 동일하게 분포된 무작위 변수(IID) | k-평균 | 입력 데이터에서 각 클러스터 중심까지의 정규화된 거리 중에서 최단 거리를 기반으로 이상치를 감지합니다. 정규화된 거리의 정의는 ML.DETECT_ANOMALIES 함수의 k-평균 모델 출력을 참조하세요. |
Autoencoder | 평균 제곱 오차의 측면에서 재구성 손실을 기준으로 이상치를 감지합니다. 자세한 내용은 ML.RECONSTRUCTION_LOSS 를 참조하세요. ML.RECONSTRUCTION_LOSS 함수는 모든 유형의 재구성 손실을 검색할 수 있습니다. |
|
PCA | 평균 제곱 오차의 측면에서 재구성 손실을 기준으로 이상치를 감지합니다. |