Créer des alertes sur votre taux d'utilisation

Vous pouvez créer des règles d'alerte sur vos objectifs de niveau de service (SLO) pour vous indiquer si vous risquez d'enfreindre un SLO. Sélectionnez le SLO à surveiller, puis configurez une règle d'alerte pour le surveiller. La condition est généralement exprimée en sélectionnant une valeur de seuil qui constitue un non-respect ainsi qu'une période pendant laquelle celui-ci est autorisé. Si le seuil dépasse la période autorisée, la règle d'alerte est déclenchée.

Cette page décrit les alertes sur le taux d'utilisation de votre marge d'erreur. Les règles d'alerte n'y sont pas traitées en détail. Nous partons du principe que vous connaissez déjà les concepts de base des conditions et des canaux de notification.

Pour obtenir des informations générales sur les règles d'alerte et savoir comment les créer, consultez la page Utiliser des règles d'alerte.

Pour connaître les étapes spécifiques de la création d'une règle d'alerte basée sur le SLO, consultez les articles suivants :

Taux d'utilisation de la marge d'erreur

Votre marge d'erreur pour une période de conformité est de (1 - objectif SLO) × (événements éligibles dans la période de conformité). Si votre objectif de SLO est de 95 %, il est acceptable que 5 % des événements mesurés par votre SLI échouent avant que votre objectif SLO ne soit atteint.

Le taux d'utilisation indique la vitesse à laquelle vous utilisez votre marge d'erreur au cours d'une période de conformité. Le taux d'utilisation dépend du nombre d'événements éligibles et du nombre d'événements d'erreur reçus au cours de la période de conformité. Par exemple, si aucun événement d'erreur ne se produit, la marge d'erreur n'est pas consommée et le taux d'utilisation est de zéro. Pour obtenir un exemple illustrant comment calculer le temps d'arrêt maximal d'un service en supposant que toutes les requêtes échouent, consultez la section Taux d'utilisation des SLO.

La métrique du taux d'utilisation est normalisée de sorte qu'un taux d'utilisation supérieur à 1 indique que si le taux d'erreur mesuré se maintient au cours d'une période de conformité ultérieure, le service sera hors SLO pendant cette période. Pour en savoir plus, consultez la section Marges d'erreur.

La métrique du taux d'utilisation est récupérée par le sélecteur de séries temporelles select_slo_burn_rate. Une règle d'alerte de taux d'utilisation vous avertit lorsque votre marge d'erreur est consommée plus rapidement qu'un seuil défini, mesuré sur la période de conformité de l'alerte. Il existe d'autres sélecteurs de séries temporelles. Pour en savoir plus, consultez la page Obtenir les données de SLO. Vous pouvez créer des règles d'alerte qui utilisent certains de ces autres sélecteurs de séries temporelles, mais vous devez les créer à l'aide de l'API Cloud Monitoring.

Présentation de la création d'une règle d'alerte sur un SLO

La création d'une règle d'alerte pour un SLO est semblable à la création d'une règle d'alerte pour les métriques. Cette section passe en revue les étapes générales de création d'une règle d'alerte.

Pour créer une règle d'alerte pour un SLO, procédez comme suit :

  1. Identifiez le SLO sur lequel vous souhaitez baser la règle d'alerte.

  2. Créez une condition pour la règle d'alerte qui utilise le SLO choisi. Dans la condition, spécifiez un sélecteur de série temporelle à utiliser pour récupérer les données de SLO. Spécifiez également une durée, un seuil et une comparaison qui déterminent le moment où le SLO n'est pas conforme.

    Par exemple, si vous utilisez le sélecteur de séries temporelles pour le taux d'utilisation, les données récupérées reflètent le taux d'utilisation de la marge d'erreur pour le SLO choisi.

    La condition permet également de spécifier le seuil et la durée du non-respect du SLO avant le déclenchement d'une alerte. Par exemple, vous souhaitez que le taux d'utilisation soit un certain pourcentage supérieur au taux souhaité pendant une certaine période avant qu'une alerte ne soit déclenchée. La valeur indiquée pour "un certain pourcentage supérieur" est le seuil de la condition, et la valeur indiquée pour "une certaine période" est la durée de la condition.

  3. Identifiez ou créez un canal de notification à utiliser dans votre règle d'alerte.

  4. Fournissez de la documentation expliquant aux utilisateurs ce qui a déclenché la règle d'alerte.

Pour obtenir des informations générales sur les règles d'alerte et savoir comment les créer, consultez la page Utiliser des règles d'alerte.

Règles d'alerte et périodes d'analyse

Lorsque vous récupérez les données de SLO pour une règle d'alerte, vous spécifiez un identifiant pour le SLO et une période d'analyse. La période d'analyse détermine jusqu'où remonter dans le temps pour récupérer les données. De manière critique, elle sert également de période de conformité pour calculer les performances du SLO et la marge d'erreur.

Il n'est actuellement pas possible de baser les alertes sur le taux de consommation de la marge d'erreur d'un SLO sur une période de conformité supérieure à 24 heures. Dans de nombreux cas, une estimation de votre délai de conformité sur le long terme (par exemple, 28 ou 30 jours) avec un délai de moins de 24 heures est suffisante pour détecter les pannes et générer une réponse opérationnelle à court terme.

Des périodes de conformité plus courtes permettent de détecter plus rapidement les problèmes, mais sachez que des variations importantes du trafic et des taux d'erreur au cours d'une journée peuvent entraîner des alertes trop sensibles pendant les périodes de faible trafic. Pensez à utiliser un seuil de vitesse de feu bien supérieur à 1 pour réduire la sensibilité des alertes pendant ces périodes.

Types d'alertes sur la marge d'erreur

Lorsque vous configurez des règles d'alerte pour surveiller votre marge d'erreur, il est judicieux de configurer deux règles d'alerte associées :

  • Une alerte d'utilisation rapide, qui vous avertit en cas de variation soudaine et importante de l'utilisation qui, si elle n'est pas corrigée, ne tardera pas à épuiser votre marge d'erreur. "À ce rythme, nous aurons épuisé la marge d'erreur du mois entier dans deux jours !"

    Pour une alerte d'utilisation rapide, utilisez une période d'analyse plus courte afin d'être rapidement informé si une condition potentiellement catastrophique s'est produite et persiste, même brièvement. Si elle est vraiment catastrophique, vous ne souhaitez pas attendre longtemps avant de le remarquer.

    Le seuil du taux de consommation auquel vous émettez une alerte ici est beaucoup plus élevé que la valeur de référence idéale pour la période d'analyse.

  • Une alerte d'utilisation lente, qui vous avertit lorsqu'un taux d'utilisation, s'il n'est pas modifié, épuisera votre marge d'erreur avant la fin de la période de conformité. Ce cas de figure est moins urgent qu'une utilisation rapide. "Nous sommes légèrement au-dessus de ce que nous aurions souhaité à ce stade du mois, mais nous ne sommes pas encore en grande difficulté."

    Pour une alerte d'utilisation lente, utilisez une période d'analyse plus longue afin de lisser les variations de la consommation à court terme.

    Le seuil d'alerte d'utilisation lente est supérieur aux performances idéales pour la période d'analyse, mais pas significativement plus élevé. Une règle basée sur une période d'analyse plus courte avec un seuil élevé peut générer un trop grand nombre d'alertes, même si le niveau de consommation à plus long terme dépasse le niveau. Toutefois, si la consommation reste ne serait-ce qu'un peu trop élevée pendant une plus longue période, elle finit par épuiser toute votre marge d'erreur.

Étapes suivantes