Présentation de la détection d'anomalies
La détection d'anomalies est une technique d'exploration des données que vous pouvez utiliser pour identifier les écarts de données dans un ensemble de données donné. Par exemple, si le taux de retour d'un produit donné augmente considérablement par rapport au taux de référence pour ce produit, cela peut indiquer un défaut ou une fraude potentielle. Vous pouvez utiliser la détection d'anomalies pour détecter des incidents critiques, tels que des problèmes techniques, ou des opportunités, telles que des changements de comportement des consommateurs.
L'un des défis de la détection d'anomalies consiste à déterminer ce qui est considéré comme des données anormales. Si vous avez étiqueté des données qui identifient des anomalies, vous pouvez effectuer la détection d'anomalies à l'aide de la fonction ML.PREDICT
avec l'un des modèles de machine learning supervisé suivants:
- Modèles de régression linéaire et logistique
- Modèles en arbre de décision à boosting
- Modèles de forêt d'arbres décisionnels
- Modèles de réseau de neurones profond (DNN)
- Modèles wide et deep learning
- Modèles AutoML
Si vous ne savez pas ce qui compte comme des données anormales ou si vous n'avez pas de données étiquetées sur lesquelles entraîner un modèle, vous pouvez utiliser le machine learning non supervisé pour détecter les anomalies. Utilisez la fonction ML.DETECT_ANOMALIES
avec l'un des modèles suivants pour détecter les anomalies dans les données d'entraînement ou les nouvelles données de service:
Type de données | Types de modèles | Fonction ML.DETECT_ANOMALIES |
---|---|---|
Séries temporelles | ARIMA_PLUS
|
Détecter les anomalies dans la série temporelle. |
ARIMA_PLUS_XREG
|
Détecter les anomalies dans les séries temporelles à l'aide de régresseurs externes. | |
Variables indépendantes et identiquement distribuées (IID) | K-moyennes | Détecter les anomalies en fonction de la distance la plus courte parmi les distances normalisées des données d'entrée vers chaque centroïde du cluster. Pour obtenir la définition des distances normalisées, consultez la sortie du modèle en k-moyennes pour la fonction ML.DETECT_ANOMALIES . |
Auto-encodeur | Détecter les anomalies basées sur la perte de reconstruction en termes d'erreur quadratique moyenne. Pour en savoir plus, consultez ML.RECONSTRUCTION_LOSS La fonction ML.RECONSTRUCTION_LOSS peut récupérer tous les types de pertes de reconstruction. |
|
ACP | Détecter les anomalies basées sur la perte de reconstruction en termes d'erreur quadratique moyenne. |
Connaissances recommandées
En utilisant les paramètres par défaut des instructions CREATE MODEL
et des fonctions d'inférence, vous pouvez créer et utiliser un modèle de détection d'anomalies, même sans beaucoup de connaissances en ML. Toutefois, disposer de connaissances de base sur le développement du ML vous aide à optimiser vos données et votre modèle pour obtenir de meilleurs résultats. Nous vous recommandons d'utiliser les ressources suivantes pour vous familiariser avec les techniques et les processus de ML:
- Cours d'initiation au machine learning
- Présentation du machine learning
- Machine learning intermédiaire