Types de règles d'alerte

Cette page décrit différents types de règles d'alerte basées sur les métriques telles qu'elles sont représentées par Google Cloud Console ou l'API Cloud Monitoring. Elle fournit des exemples JSON pour ces règles. Si vous êtes intéressé par les règles d'alerte créées à l'aide du langage MQL (Monitoring Query Language), consultez la page Règles d'alerte avec MQL.

Ce contenu ne concerne pas les règles d'alerte basées sur les journaux. Pour en savoir plus sur les règles d'alerte basées sur les journaux, qui vous envoient une notification lorsqu'un message particulier s'affiche dans les journaux, consultez la page Surveiller vos journaux.

Une règle d'alerte définit des conditions, qui sont basées sur des métriques. Une condition de règle d'alerte peut surveiller, par exemple, si une métrique atteint une valeur ou si une métrique commence à changer rapidement. Les métriques sont associées à des ressources et en mesurent certaines caractéristiques, telles que l'utilisation moyenne du processeur dans un groupe de VM. Pour en savoir plus sur les métriques, consultez la page Métriques, séries temporelles et ressources.

Toutes les conditions surveillent trois éléments : une métrique spécifique se comportant d'une certaine manière pendant un certain temps.

Toutes les conditions sont mises en œuvre selon l'un des deux types généraux : une condition d'absence de métrique ou une condition de seuil de métrique.

Condition d'absence de métrique

Une condition d'absence de métrique se déclenche si une série temporelle dans la métrique ne contient aucune donnée pour un intervalle de temps spécifique.

Les conditions d'absence de métrique nécessitent au moins une mesure réussie (d'extraction de données) dans l'intervalle de temps maximal après l'installation ou la modification de la règle. La durée maximale configurable est de 24 heures si vous utilisez Google Cloud Console et de 24,5 heures si vous utilisez l'API Cloud Monitoring.

Supposons, par exemple, que vous définissiez l'intervalle de temps d'une règle d'absence de métrique sur 30 minutes. La condition n'est pas remplie si le sous-système qui écrit les données de métrique n'a jamais écrit de point de données. Pour qu'elle soit remplie, le sous-système doit générer au moins un point de données, puis ne générer aucun point de données supplémentaire pendant 30 minutes.

Pour plus d'informations sur l'utilisation de l'API Monitoring pour créer des règles d'alerte basées sur l'absence de métrique, consultez Conditions d'alerte basées sur les métriques.

Condition de seuil de métrique

Une condition de seuil de métrique se déclenche si une métrique devient supérieure ou inférieure à une valeur déterminée pendant un intervalle de temps spécifique.

Dans la classe des conditions de seuil de métrique, les modèles suivants appartiennent à des sous-catégories générales :

  • Taux (pourcentage) de changement de métrique : se déclenche si une métrique augmente ou diminue d'une valeur spécifique exprimée en pourcentage au cours d'un certain intervalle de temps.

    Dans ce type de condition, un calcul de pourcentage de changement est appliqué à la série temporelle avant la comparaison avec le seuil.

    La condition calcule la moyenne des valeurs de la métrique lors des 10 dernières minutes, puis compare ce résultat à la moyenne sur 10 minutes mesurée juste avant l'intervalle de temps. La période d'analyse de 10 minutes utilisée par une condition de taux de changement de métrique correspond à une valeur fixe, qui ne peut être modifiée. Cependant, c'est vous qui spécifiez l'intervalle de temps au moment de la création d'une condition.

  • Seuil d'agrégation de groupe : se déclenche si une métrique mesurée dans un groupe de ressources dépasse un seuil.

  • État de test de disponibilité : se déclenche si vous avez créé un test de disponibilité et que la ressource ne parvient pas à répondre à une requête envoyée depuis au moins deux emplacements géographiques.

    Les résultats des tests de disponibilité s'affichent à plusieurs endroits. Dans Google Cloud Console, accédez à Monitoring, puis sélectionnez Overview (Vue d'ensemble) ou Uptime Checks (Tests de disponibilité). Les deux fenêtres répertorient les tests de disponibilité du projet et l'état du test. Pour afficher les détails d'un test de disponibilité particulier, sélectionnez son nom dans la liste. En créant une règle d'alerte sur un test de disponibilité, il est possible que des tests de disponibilité ouvrent indirectement des incidents et envoient même des notifications en cas d'échec.

  • État de processus : ces conditions comptabilisent le nombre de processus exécutés sur une instance de VM ou sur un groupe d'instances correspondant à une convention de dénomination. La condition se déclenche lorsque ce nombre est supérieur ou inférieur à un nombre spécifique au cours d'un certain intervalle de temps.

    Ce type de condition nécessite que l'agent Ops ou l'agent Monitoring s'exécute sur les ressources surveillées. Pour en savoir plus sur les agents, consultez la page Agents de la suite Google Cloud Operations.

  • Ratio de métriques : se déclenche si le ratio de deux métriques dépasse un seuil pendant une certaine durée. Il s'agit d'une condition de seuil qui utilise deux métriques liées, par exemple le ratio entre les réponses d'erreur HTTP et toutes les réponses HTTP.

    Pour en savoir plus sur les règles basées sur les ratios, consultez la section Conditions d'alerte sur les ratios.

Examples

Vous trouverez ci-dessous des exemples de types de règles:

Type de condition Exemple JSON
Seuil de métrique Afficher
Taux de changement Afficher
Agrégation de groupe Afficher
Test de disponibilité Afficher
État du processus Afficher
Ratio de métriques Afficher

Étapes suivantes