Descripción general de la detección de anomalías

La detección de anomalías es una técnica de extracción de datos que puedes usar para identificar desviaciones de datos en un conjunto de datos determinado. Por ejemplo, si la tasa de devoluciones de un producto determinado aumenta significativamente con respecto al modelo de referencia de ese producto, podría indicar un defecto en el producto o un posible fraude. Puedes usar la detección de anomalías para detectar los incidentes críticos, como problemas técnicos, o las oportunidades, como cambios en el comportamiento de los consumidores.

Uno de los desafíos cuando se utiliza la detección de anomalías es determinar qué se cuenta como datos anómalos. Si tienes datos etiquetados que identifican anomalías, puedes realizar la detección de anomalías con uno de los siguientes modelos de aprendizaje automático supervisado:

  • Modelos de regresión lineal y regresión logística
  • Modelos de árbol con boosting
  • Modelos de bosque aleatorios
  • DNN y modelos profundos y amplios
  • Modelos AutoML

Si no estás seguro de qué cuenta como datos anómalos o no tienes datos etiquetados para entrenar un modelo, puedes usar el aprendizaje automático no supervisado para realizar la detección de anomalías. Usa la función ML.DETECT_ANOMALIES con uno de los siguientes modelos para detectar anomalías en los datos de entrenamiento o en los datos de entrega nuevos:

Tipo de datos Tipos de modelos Qué hace ML.DETECT_ANOMALIES
Series temporales ARIMA_PLUS Detecta las anomalías en las series temporales.
ARIMA_PLUS_XREG Detecta las anomalías en las series temporales con regresores externos.
Variables aleatorias independientes e idénticamente distribuidas (IID) k-means Detecta anomalías según la distancia más corta entre las distancias normalizadas de los datos de entrada a cada centroide del clúster. Para obtener una definición de distancias normalizadas, consulta El resultado del modelo k-means para la función ML.DETECT_ANOMALIES.
Codificador automático Detecta anomalías según la pérdida de reconstrucción en términos de error cuadrático medio. Para obtener más información, consulta ML.RECONSTRUCTION_LOSS. La función ML.RECONSTRUCTION_LOSS puede recuperar todos los tipos de pérdidas de reconstrucción.
PCA Detecta anomalías según la pérdida de reconstrucción en términos de error cuadrático medio.