Cette page s'applique à Apigee et à Apigee hybrid.
Consultez la documentation d'Apigee Edge.
Qu'est-ce qu'une anomalie ?
Une anomalie est un modèle de données d'API inhabituel ou inattendu. Par exemple, consultez le graphique du taux d'erreur de l'API ci-dessous :
Comme vous pouvez le voir, le taux d'erreur augmente soudainement à environ 7 h. Par rapport aux données menant à cette période, cette augmentation est suffisamment inhabituelle pour être considérée comme une anomalie.
Cependant, toutes les variantes des données d'API ne représentent pas forcément une anomalie : la plupart d'entre elles ne sont que des fluctuations aléatoires. Par exemple, vous pouvez constater des variations relativement mineures du taux d'erreur menant à une anomalie, mais qui ne sont pas suffisamment importantes pour être qualifiées d'anomalies réelles.
Les opérations d'API surveillent en permanence les données d'API et effectuent une analyse statistique pour distinguer les anomalies réelles des fluctuations aléatoires des données.
Sans détection d'anomalies, vous devez choisir un seuil pour détecter vous-même chaque anomalie. (Un seuil est une valeur qu'une quantité, telle qu'un taux d'erreur, doit atteindre pour déclencher une anomalie.) Vous devez également maintenir les valeurs de seuil à jour, en fonction des dernières données. En revanche, AAPI-Ops choisit les meilleurs seuils d'anomalies en fonction des modèles de données récents.
Lorsqu'une API détecte une anomalie comme celle illustrée ci-dessus, elle affiche les détails de l'anomalie dans le tableau de bord des événements d'anomalies. À ce stade, vous pouvez examiner l'anomalie dans les tableaux de bord de l'API Monitoring et prendre les mesures appropriées si nécessaire. Vous pouvez également créer une alerte afin d'être averti lorsque des événements similaires se produisent à l'avenir.
La détection d'une anomalie contient les informations suivantes :
- Métrique à l'origine de l'anomalie, telle que la latence du proxy ou un code d'erreur HTTP
- Niveau de gravité de l'anomalie. Le niveau de gravité peut être léger, modéré ou grave, en fonction du niveau de confiance du modèle. Un niveau de confiance faible indique que le niveau de gravité est léger, tandis qu'un niveau de confiance élevé indique qu'il est grave.
Types d'anomalies
Apigee détecte automatiquement les types d'anomalies suivants :
- Augmentation du nombre d'erreurs HTTP 503 au niveau de l'organisation, de l'environnement et de la région
- Augmentation du nombre d'erreurs HTTP 504 au niveau de l'organisation, de l'environnement et de la région
- Augmentation du nombre d'erreurs HTTP 4xx ou 5xx au niveau de l'organisation, de l'environnement et de la région
- Augmentation de la latence de réponse totale pour le 90e centile (p90) au niveau de l'organisation, de l'environnement et de la région
Fonctionnement de la détection d'anomalies
La détection d'anomalies implique les étapes suivantes :
Entraîner des modèles
La détection d'anomalies consiste à entraîner un modèle du comportement de vos proxys d'API à partir de données de séries temporelles historiques. Aucune action n'est requise de votre part pour entraîner le modèle. Apigee crée et entraîne automatiquement des modèles à partir des données d'API des six dernières heures. Par conséquent, Apigee a besoin d'au moins six heures de données sur un proxy d'API pour entraîner le modèle avant de pouvoir enregistrer une anomalie.
L'objectif de l'entraînement est d'améliorer la précision du modèle, qui peut ensuite être testé sur des données historiques. Le moyen le plus simple de tester la précision d'un modèle consiste à calculer son taux d'erreur, c'est-à-dire la somme de faux positifs et de faux négatifs, divisée par le nombre total d'événements prévus.
Consigner les événements d'anomalies
Au moment de l'exécution, la détection d'anomalies Apigee compare le comportement actuel de vos proxys d'API avec le comportement prédit par le modèle. La détection d'anomalies peut alors déterminer, avec un niveau de confiance spécifique, lorsqu'une métrique opérationnelle dépasse la valeur prédite. Par exemple, lorsque le taux d'erreurs 5xx dépasse le taux prédit par le modèle.
Lorsque Apigee détecte une anomalie, il consigne automatiquement l'événement dans le tableau de bord des événements d'anomalies. La liste des événements affichés dans le tableau de bord inclut toutes les anomalies détectées, ainsi que les alertes déclenchées.