Types de règles d'alerte

Une règle d'alerte définit des conditions, qui sont basées sur des métriques. Une condition de règle d'alerte peut surveiller, par exemple, si une métrique atteint une valeur ou si une métrique commence à changer rapidement. Les métriques sont associées à des ressources et en mesurent certaines caractéristiques, telles que l'utilisation moyenne du processeur dans un groupe de VM. Pour en savoir plus sur les métriques, consultez la page Métriques, séries temporelles et ressources.

Toutes les conditions surveillent trois éléments : une métrique spécifique se comportant d'une certaine manière pendant un certain temps.

Toutes les conditions sont mises en œuvre selon l'un des deux types généraux : une condition d'absence de métrique ou une condition de seuil de métrique.

Condition d'absence de métrique

Une condition d'absence de métrique se déclenche si une série temporelle dans la métrique ne contient aucune donnée pour un intervalle de temps spécifique. L'intervalle de temps correspond à la durée pendant laquelle une condition doit être évaluée comme étant true avant la création d'un incident.

Les conditions d'absence de métrique nécessitent au moins une mesure réussie (d'extraction de données) depuis l'installation de la règle ou comprise dans l'intervalle de temps maximal (24 heures).

Supposons, par exemple, que vous définissiez l'intervalle de temps d'une règle d'absence de métrique sur 30 minutes. La condition n'est pas remplie si le sous-système qui écrit les données de métrique n'a jamais écrit de point de données. Pour qu'elle soit remplie, le sous-système doit générer au moins un point de données, puis ne générer aucun point de données supplémentaire pendant 30 minutes.

Condition de seuil de métrique

Une condition de seuil de métrique se déclenche si une métrique devient supérieure ou inférieure à une valeur déterminée pendant un intervalle de temps spécifique.

Dans la classe des conditions de seuil de métrique, les modèles suivants appartiennent à des sous-catégories générales :

  • Taux (pourcentage) de changement de métrique : se déclenche si une métrique augmente ou diminue d'une valeur spécifique exprimée en pourcentage au cours d'un certain intervalle de temps.

    Dans ce type de condition, un calcul de pourcentage de changement est appliqué à la série temporelle avant la comparaison avec le seuil.

    La condition calcule la moyenne des valeurs de la métrique lors des 10 dernières minutes, puis compare ce résultat à la moyenne sur 10 minutes mesurée juste avant l'intervalle de temps. La période d'analyse de 10 minutes utilisée par une condition de taux de changement de métrique correspond à une valeur fixe, qui ne peut être modifiée. Cependant, c'est vous qui spécifiez l'intervalle de temps au moment de la création d'une condition.

  • Seuil d'agrégation de groupe : se déclenche si une métrique mesurée dans un groupe de ressources dépasse un seuil.

  • État de test de disponibilité : se déclenche si vous avez créé un test de disponibilité et que la ressource ne parvient pas à répondre à une requête envoyée depuis au moins deux emplacements géographiques.

    Les résultats des tests de disponibilité s'affichent à plusieurs endroits. Dans Google Cloud Console, accédez à Surveillance, puis sélectionnez Aperçu ou Tests de disponibilité. Les deux fenêtres répertorient les tests de disponibilité du projet et l'état du test. Pour afficher les détails d'un test de disponibilité particulier, sélectionnez son nom dans la liste. En créant une règle d'alerte sur un test de disponibilité, il est possible que des tests de disponibilité ouvrent indirectement des incidents et envoient même des notifications en cas d'échec.

  • État de processus : ces conditions comptabilisent le nombre de processus exécutés sur une instance de VM ou sur un groupe d'instances correspondant à une convention de dénomination. La condition se déclenche lorsque ce nombre est supérieur ou inférieur à un nombre spécifique au cours d'un certain intervalle de temps.

    Ce type de condition nécessite l'exécution de l'agent de surveillance sur les ressources surveillées.

  • Ratio de métriques : se déclenche si le ratio de deux métriques dépasse un seuil pendant une certaine durée. Il s'agit d'une condition de seuil qui utilise deux métriques liées, par exemple le ratio entre les réponses d'erreur HTTP et toutes les réponses HTTP.

    Les métriques comparées doivent avoir le même MetricKind. Par exemple, vous pouvez créer une règle d'alerte basée sur un ratio si les deux métriques sont des métriques de jauge. Pour obtenir une liste des métriques et de leurs propriétés, consultez la page Listes de métriques.

Exemples

Des exemples pour chacun de ces types sont disponibles ci-dessous :

Type de condition Exemple JSON
Seuil de métrique Afficher
Taux de changement Afficher
Agrégation de groupe Afficher
Test de disponibilité Afficher
État de processus Afficher
Ratio de métriques Afficher

Étape suivante