Anomalieerkennung – Übersicht

Die Anomalieerkennung ist eine Data-Mining-Methode, mit der Sie Datenabweichungen in einem bestimmten Dataset identifizieren können. Wenn beispielsweise die Rückgaberate für ein bestimmtes Produkt erheblich höher ist als die Baseline für dieses Produkt, kann dies auf einen Produktfehler oder einen potenziellen Betrug hinweisen. Sie können die Anomalieerkennung verwenden, um kritische Vorfälle wie technische Probleme oder Chancen wie Änderungen des Verbraucherverhaltens zu erkennen.

Eine Herausforderung bei der Anomalieerkennung besteht darin, zu bestimmen, was als ungewöhnliche Daten zählt. Wenn Sie Daten mit Labels versehen haben, die Anomalien erkennen, können Sie mit einem der folgenden überwachten ML-Modelle die Anomalieerkennung durchführen:

  • Lineare und logistische Regressionsmodelle
  • Boosted Trees-Modelle
  • Random Forest-Modelle
  • DNNs und Wide & Deep-Modelle
  • AutoML-Modelle

Wenn Sie nicht sicher sind, was als anomale Daten zählt oder Sie keine Daten mit Labels versehen haben, um ein Modell zu trainieren, können Sie unbeaufsichtigtes maschinelles Lernen verwenden, um die Anomalieerkennung durchzuführen. Verwenden Sie die Funktion ML.DETECT_ANOMALIES mit einem der folgenden Modelle, um Anomalien in Trainingsdaten oder neuen Bereitstellungsdaten zu erkennen:

Datentyp Modelltypen Aufgabe von ML.DETECT_ANOMALIES
Zeitreihe ARIMA_PLUS Anomalien in der Zeitreihe erkennen.
ARIMA_PLUS_XREG Erkennen Sie Anomalien in der Zeitreihe mit externen Regressoren.
Unabhängige und identisch verteilte Zufallsvariablen (IID) K-means Anomalien auf der Grundlage der kürzesten Entfernung bei den normalisierten Entfernungen von den Eingabedaten zu jedem Clusterschwerpunkt erkennen. Eine Definition der normalisierten Entfernungen finden Sie unter k-Means-Modellausgabe für die Funktion ML.DETECT_ANOMALIES.
Autoencoder Anomalien aufgrund des Rekonstruktionsverlusts in Bezug auf den mittleren quadratischen Fehler erkennen. Weitere Informationen finden Sie unter ML.RECONSTRUCTION_LOSS. Die Funktion ML.RECONSTRUCTION_LOSS kann alle Arten von Rekonstruktionsverlusten abrufen.
PCA Anomalien anhand des Rekonstruktionsverlusts in Bezug auf den mittleren quadratischen Fehler erkennen.