이상 감지 개요

이상 감지는 특정 데이터 세트의 데이터 편차를 식별하는 데 사용할 수 있는 데이터 마이닝 기법입니다. 예를 들어, 특정 제품의 반품율이 해당 제품의 기준보다 크게 증가하면 제품 결함 또는 사기 가능성을 나타낼 수 있습니다. 이상 감지를 사용하여 기술 문제와 같은 중대한 이슈 또는 소비자 행동 변화와 같은 기회를 감지할 수 있습니다.

이상 감지를 사용할 때의 한 가지 도전과제는 어떤 데이터를 이상 데이터로 간주할지를 결정하는 것입니다. 이상치를 나타내는 데이터에 라벨이 지정된 경우 다음 지도 머신러닝 모델 중 하나와 함께 ML.PREDICT 함수를 사용하여 이상 감지를 수행할 수 있습니다.

무엇을 이상 데이터로 간주해야 하는지 확실하지 않거나 모델을 학습시킬 라벨 지정 데이터가 없는 경우 비지도 머신러닝을 사용하여 이상 감지를 수행할 수 있습니다. 다음 모델 중 하나와 함께 ML.DETECT_ANOMALIES 함수를 사용하여 학습 데이터 또는 새 서빙 데이터에서 이상치를 감지합니다.

데이터 유형 모델 유형 ML.DETECT_ANOMALIES의 역할
시계열 ARIMA_PLUS 시계열에서 이상치를 감지합니다.
ARIMA_PLUS_XREG 외부 회귀를 사용하여 시계열에서 이상치를 감지합니다.
독립적이고 동일하게 분포된 무작위 변수(IID) k-평균 입력 데이터에서 각 클러스터 중심까지의 정규화된 거리 중에서 최단 거리를 기반으로 이상치를 감지합니다. 정규화된 거리의 정의는 ML.DETECT_ANOMALIES 함수의 k-평균 모델 출력을 참조하세요.
Autoencoder 평균 제곱 오차의 측면에서 재구성 손실을 기준으로 이상치를 감지합니다. 자세한 내용은 ML.RECONSTRUCTION_LOSS을 참조하세요. ML.RECONSTRUCTION_LOSS 함수는 모든 유형의 재구성 손실을 검색할 수 있습니다.
PCA 평균 제곱 오차의 측면에서 재구성 손실을 기준으로 이상치를 감지합니다.

CREATE MODEL 문이 포함된 기본 설정과 추론 함수를 사용하면 많은 ML 지식 없이도 이상 감지 모델을 만들고 사용할 수 있습니다. 하지만 ML 개발에 관한 기본 지식을 알고 있으면 데이터와 모델을 모두 최적화하여 더 나은 결과를 얻을 수 있습니다. ML 기법과 프로세스에 익숙해지려면 다음 리소스를 사용하는 것이 좋습니다.