Présentation de la détection d'anomalies
La détection d'anomalies est une technique d'exploration de données qui vous permet d'identifier des écarts de données dans un ensemble de données spécifique. Par exemple, si le taux de retour d'un produit donné augmente considérablement par rapport au taux de référence pour ce produit, cela peut indiquer un défaut ou une fraude potentielle. Vous pouvez utiliser la détection d'anomalies pour détecter des incidents critiques, tels que des problèmes techniques ou des opportunités, telles que des changements de comportement des consommateurs.
Lorsque vous utilisez la détection d'anomalies, l'un des défis consiste à déterminer ce qui compte comme des données anormales. Si vous avez étiqueté des données qui identifient des anomalies, vous pouvez effectuer la détection d'anomalies avec l'un des modèles de machine learning supervisé suivants :
- Modèles de régression linéaire et de régression logistique
- Modèles en arbre de décision à boosting
- Modèles de forêt d'arbres décisionnels
- DNN et modèles wide et deep learning
- Modèles AutoML
Si vous ne savez pas ce qui compte comme des données anormales ou si vous n'avez pas de données étiquetées sur lesquelles entraîner un modèle, vous pouvez utiliser le machine learning non supervisé pour détecter les anomalies. Utilisez la fonction ML.DETECT_ANOMALIES
avec l'un des modèles suivants pour détecter les anomalies dans les données d'entraînement ou les nouvelles données d'inférence :
Type de données | Types de modèles | Fonction ML.DETECT_ANOMALIES |
---|---|---|
Séries temporelles | ARIMA_PLUS
|
Détecter les anomalies dans la série temporelle. |
ARIMA_PLUS_XREG
|
Détecter les anomalies dans les séries temporelles à l'aide de régresseurs externes. | |
Variables indépendantes et identiquement distribuées (IID) | K-moyennes | Détecter les anomalies en fonction de la distance la plus courte parmi les distances normalisées des données d'entrée vers chaque centroïde du cluster. Pour obtenir la définition des distances normalisées, consultez la page Sortie du modèle de k-moyennes pour la fonction ML.DETECT_ANOMALIES . |
Auto-encodeur | Détecter les anomalies basées sur la perte de reconstruction en termes d'erreur quadratique moyenne. Pour en savoir plus, consultez ML.RECONSTRUCTION_LOSS La fonction ML.RECONSTRUCTION_LOSS peut récupérer tous les types de pertes de reconstruction. |
|
ACP | Détecter les anomalies basées sur la perte de reconstruction en termes d'erreur quadratique moyenne. |