Présentation des anomalies opérationnelles

Cette page s'applique à Apigee et à Apigee hybrid.

Consultez la documentation d'Apigee Edge.

Présentation des anomalies opérationnelles

Les anomalies opérationnelles identifient les modèles de données d'API inhabituels ou inattendus sur vos API, en fonction des modèles de données récents. Par exemple, dans ce graphique du taux d'erreur de l'API, celui-ci augmente soudainement à environ 7 h. Par rapport aux données menant à cette période, cette augmentation est suffisamment inhabituelle pour être considérée comme une anomalie.

Graphique d'une anomalie liée au taux d'erreur

Toutes les variantes des données d'API ne représentent pas forcément une anomalie : la plupart d'entre elles ne sont que des fluctuations aléatoires. Par exemple, vous pouvez constater des variations mineures du taux d'erreur menant à une anomalie, mais qui ne sont pas suffisamment importantes pour être classées comme une anomalie.

Anomalie ou variation de données aléatoire.

Les anomalies opérationnelles surveillent en permanence les données d'API et effectuent une analyse statistique pour distinguer les anomalies réelles des fluctuations aléatoires des données.

Les anomalies opérationnelles détectent automatiquement les types d'anomalies suivants :

  • Augmentation du nombre d'erreurs HTTP 503 au niveau de l'organisation, de l'environnement et de la région
  • Augmentation du nombre d'erreurs HTTP 504 au niveau de l'organisation, de l'environnement et de la région
  • Augmentation du nombre d'erreurs HTTP 4xx ou 5xx au niveau de l'organisation, de l'environnement et de la région
  • Augmentation de la latence de réponse totale pour le 90e centile (p90) au niveau de l'organisation, de l'environnement et de la région

La détection d'une anomalie contient les informations suivantes :

  • Métrique à l'origine de l'anomalie, telle que la latence du proxy ou un code d'erreur HTTP
  • Niveau de gravité de l'anomalie. Le niveau de gravité peut être léger, modéré ou grave, en fonction du niveau de confiance du modèle. Un niveau de confiance faible indique que le niveau de gravité est léger, tandis qu'un niveau de confiance élevé indique qu'il est grave.

Conditions préalables à l'utilisation des anomalies opérationnelles

Pour utiliser les anomalies opérationnelles :

Afficher les anomalies opérationnelles détectées

Lorsque les anomalies opérationnelles détectent une anomalie, elles affichent les détails de l'anomalie dans le tableau de bord des anomalies opérationnelles. Vous pouvez examiner l'anomalie dans les tableaux de bord de surveillance de l'API et prendre les mesures appropriées si nécessaire. Vous pouvez également créer une alerte afin d'être averti lorsque des événements similaires se produisent à l'avenir.

Le tableau de bord des anomalies opérationnelles dans l'interface utilisateur d'Apigee est votre source d'informations principale sur les anomalies opérationnelles détectées. Le tableau de bord affiche une liste d'anomalies récentes.

Pour ouvrir le tableau de bord des anomalies opérationnelles :

  1. Connectez-vous à l'interface utilisateur Apigee dans la console Cloud.
  2. Basculez vers l'organisation que vous souhaitez surveiller.
  3. Dans le menu de gauche, sélectionnez Données analytiques > Anomalies opérationnelles.

Le tableau de bord des anomalies opérationnelles s'affiche.

Afficher les anomalies dans le tableau de bord des anomalies opérationnelles

Par défaut, le tableau de bord affiche les anomalies qui se sont produites pendant l'heure précédente. Si aucune anomalie n'a été détectée pendant cette période, aucune ligne n'est affichée dans le tableau de bord. Vous pouvez sélectionner une période plus longue dans le menu situé en haut à droite du tableau de bord.

Afficher les anomalies dans le tableau de bord des anomalies opérationnelles

Chaque ligne du tableau correspond à une anomalie détectée et affiche les informations suivantes :

  • Date et heure de l'anomalie.
  • Bref résumé de l'anomalie, y compris le proxy dans lequel elle s'est produite et le code d'erreur qui l'a déclenchée.
  • Environnement dans lequel l'anomalie s'est produite.
  • Région dans laquelle l'anomalie s'est produite.
  • Gravité de l'événement d'anomalie : légère, modérée ou grave. Le niveau de gravité est basé sur une mesure statistique (valeur p) évaluant la probabilité que l'événement se produise (plus l'événement est improbable, plus sa gravité est élevée).

Vous pouvez également examiner une anomalie dans les tableaux de bord de surveillance de l'API, qui affichent différents graphiques des données de trafic des API récentes.

Fonctionnement de la détection d'anomalies

La détection d'anomalies implique les étapes suivantes :

Entraîner des modèles

Les anomalies opérationnelles consistent à entraîner un modèle du comportement de vos proxys d'API à partir de données de séries temporelles historiques. Aucune action n'est requise de votre part pour entraîner le modèle. Apigee crée et entraîne automatiquement des modèles à partir des données d'API des six dernières heures. Par conséquent, Apigee a besoin d'au moins six heures de données sur un proxy d'API pour entraîner le modèle avant de pouvoir enregistrer une anomalie.

L'objectif de l'entraînement est d'améliorer la précision du modèle, qui peut ensuite être testé sur des données historiques. Le moyen le plus simple de tester la précision d'un modèle consiste à calculer son taux d'erreur, c'est-à-dire la somme de faux positifs et de faux négatifs, divisée par le nombre total d'événements prévus.

Consigner les événements d'anomalies

Au moment de l'exécution, les anomalies opérationnelles comparent le comportement actuel de vos proxys d'API avec le comportement prédit par le modèle. Les anomalies opérationnelles peuvent alors déterminer, avec un niveau de confiance spécifique, lorsqu'une métrique opérationnelle dépasse la valeur prédite. Par exemple, lorsque le taux d'erreurs 5xx dépasse le taux prédit par le modèle.

Lorsque Apigee détecte une anomalie, il consigne automatiquement l'événement dans le tableau de bord des anomalies opérationnelles. La liste des événements affichés dans le tableau de bord inclut toutes les anomalies détectées, ainsi que les alertes déclenchées.