Incidents pour les règles d'alerte basées sur les métriques

Un incident est un enregistrement qui indique quand les conditions d'une règle d'alerte sont remplies. En règle générale, lorsque les conditions sont remplies, Cloud Monitoring ouvre un incident et envoie une notification. Toutefois, aucun incident n'est créé lorsque la règle est mise en attente ou désactivée, lorsqu'il y a trop d'incidents ouverts pour cette règle ou lorsque la ressource sous-jacente est connue pour être désactivée. En outre, lorsqu'une règle d'alerte contient plusieurs conditions, elle spécifie si la création d'un incident suffit à remplir l'une des conditions.

Ce document explique comment afficher, examiner et gérer les incidents pour les règles d'alerte basées sur les métriques.

Avant de commencer

Assurez-vous de disposer des autorisations nécessaires:

Pour en savoir plus sur les rôles Cloud Monitoring, consultez la page Contrôler les accès avec Identity and Access Management.

Rechercher des incidents

Pour afficher la liste des incidents, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page  Alertes:

    Accéder à l'interface des alertes

    Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Surveillance.

    • Le volet Résumé présente le nombre d'incidents ouverts.
    • Le volet Incidents affiche les incidents ouverts les plus récents. Pour afficher les incidents les plus récents dans le tableau, y compris ceux qui sont fermés, cliquez sur Afficher les incidents fermés.
  2. Facultatif: Pour afficher les détails d'un incident spécifique, sélectionnez-le dans la liste. La page Détails de l'incident s'ouvre. Pour en savoir plus sur cette page, consultez la section Examiner les incidents de cette page.

Rechercher des incidents plus anciens

Le volet Incidents de la page Alertes affiche les derniers incidents ouverts. Pour localiser les incidents plus anciens, effectuez l'une des opérations suivantes:

  • Pour parcourir les entrées du tableau Incidents, cliquez sur Plus récents ou sur Plus anciens.

  • Pour accéder à la page Incidents, cliquez sur Afficher tous les incidents. Sur la page Incidents, vous pouvez effectuer toutes les opérations suivantes:

    • Afficher les incidents fermés: pour répertorier tous les incidents dans le tableau, cliquez sur Afficher les incidents fermés.
    • Filtrer les incidents: pour plus d'informations sur l'ajout de filtres, consultez la section Filtrer les incidents.
    • Confirmer ou fermer un incident, ou mettre en pause sa règle d'alerte. Pour accéder à ces options, cliquez sur  Plus d'options sur la ligne de l'incident et sélectionnez-en une dans le menu. Pour en savoir plus, consultez la section Gérer les incidents.

Filtrer les incidents

Lorsque vous saisissez une valeur dans la barre de filtre, seuls les incidents correspondant au filtre sont présentés dans le tableau Incidents. Si vous ajoutez plusieurs filtres, un incident ne s'affiche que s'il satisfait à tous les filtres.

Pour ajouter un filtre au tableau des incidents, procédez comme suit :

  1. Sur la page Incidents, cliquez sur  Filtrer le tableau, puis sélectionnez une propriété de filtre. Les propriétés de filtrage incluent tous les éléments suivants:

    • État de l'incident
    • Nom de la règle d'alerte
    • Date d'ouverture ou de fermeture de l'incident
    • Type de métrique
    • Type de ressource
  2. Sélectionnez une valeur dans le menu secondaire ou saisissez une valeur dans la barre de filtre.

    Par exemple, si vous sélectionnez Type de métrique et saisissez usage_time, seules les options suivantes peuvent s'afficher dans le menu secondaire:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Enquêter sur les incidents

Une fois que vous avez trouvé l'incident que vous souhaitez examiner, accédez à la page Détails de l'incident correspondant. Pour afficher les détails, sélectionnez le résumé de l'incident dans le tableau des incidents sur les pages Alertes ou Incidents.

Si vous avez reçu une notification contenant un lien vers l'incident, vous pouvez également utiliser ce lien pour afficher les détails de l'incident.

La page Détails de l'incident fournit les informations suivantes:

  • Les informations d'état, y compris:

    • Nom: nom de la règle d'alerte à l'origine de cet incident.
    • État : état de l'incident (ouvert, confirmé ou fermé).
    • Gravité: gravité de l'incident :
      • Aucune gravité
      • Critique
      • Erreur
      • Avertissement
    • Duration (Durée) : durée pendant laquelle l'incident a été ouvert.
  • Informations sur la règle d'alerte à l'origine de l'incident:

    • Volet Condition: identifie la condition de la règle d'alerte qui a provoqué l'incident.

    • Volet Message: fournit une brève explication de la cause en fonction de la configuration de la condition dans la règle d'alerte. Ce volet est toujours renseigné.

    • Volet Documentation: affiche le modèle de documentation des notifications que vous avez fourni lors de la création de la règle d'alerte. Ces informations peuvent inclure une description de ce que la règle d'alerte surveille et des conseils d'atténuation.

      Si vous avez ignoré ce champ lors de la création de la règle d'alerte, ce volet indique "Aucune documentation n'est configurée".

  • Libellés: indique les éléments suivants :
    • Étiquettes et valeurs de la ressource surveillée et de la métrique de la série temporelle à l'origine de l'incident. Ces informations peuvent vous aider à identifier la ressource surveillée spécifique à l'origine de l'incident.

      Lorsque vous utilisez des variables dans la documentation pour les libellés de métriques, Monitoring omet le libellé des notifications lorsque sa valeur ne commence pas par un chiffre, une lettre, une barre oblique (/) ni un signe égal (=).

    • Toutes les étiquettes et valeurs spécifiées par l'utilisateur que vous avez définies dans la règle d'alerte. Vous pouvez utiliser ces étiquettes pour organiser et identifier les règles d'alerte. Les libellés associés à une stratégie sont répertoriés dans la section Libellés de règle, tandis que les libellés définis dans le cadre d'une condition sont répertoriés dans la section Libellés de métriques. Les libellés de métadonnées ne s'affichent que si un filtre ou un regroupement en dépend. Pour en savoir plus, consultez la section Annoter des alertes à l'aide de libellés.

La page Détails de l'incident fournit également des outils permettant d'examiner l'incident:

  • Chronologie de l'incident: affiche deux représentations visuelles de l'incident:

    • Sur la chronologie, une barre rouge représente l'heure de l'incident. La longueur et la position de cette barre reflètent la durée de l'incident.
    • Un graphique montre les données de séries temporelles et le seuil utilisés par la règle d'alerte à l'origine de l'incident. L'incident a été ouvert lorsqu'une série temporelle a satisfait à une condition de la règle d'alerte.

    L'axe des temps indique la durée de l'incident avec deux points comportant un libellé. La position de ces points sur l'axe de temps détermine la plage de données affichée sur le graphique associé à la chronologie de l'incident. Par défaut, un point est placé à l'ouverture de l'incident et un à la fermeture, ou à l'heure actuelle si celui-ci est toujours ouvert.

    Vous pouvez modifier la période sur la chronologie de l'incident et sur le graphique:

    • Pour modifier la période affichée sur le graphique, faites glisser l'un des points le long de l'axe de temps. Cette technique vous permet de vous concentrer sur des intervalles spécifiques, par exemple vers le début ou la fin de l'incident.

      La modification du graphique en faisant glisser les points sur l'axe définit une valeur personnalisée dans le menu Période et désactive le menu. Pour activer le menu Période, cliquez sur Réinitialiser.

    • Pour modifier la période affichée sur la chronologie, sélectionnez-en une dans le menu Time Span (Période).
  • Liens vers d'autres outils de dépannage La configuration de votre projet, votre règle d'alerte et l'âge de l'incident déterminent les liens disponibles.
    • Pour afficher la page de détails de la règle d'alerte, cliquez sur Afficher la règle.
    • Pour modifier la définition de la règle d'alerte, cliquez sur Modifier la règle.
    • Pour accéder à un tableau de bord des informations sur les performances de la ressource, cliquez sur Afficher les détails de la ressource.
    • Pour consulter les entrées de journaux associées dans l'explorateur de journaux, cliquez sur Afficher les journaux. Pour en savoir plus, consultez la page Afficher les journaux à l'aide de l'explorateur de journaux.
    • Pour examiner les données du graphique, cliquez sur Afficher dans l'explorateur de métriques.
  • Annotations : fournit un journal des résultats, suggestions ou autres commentaires issus de votre enquête sur l'incident.
    • Pour ajouter une annotation, saisissez du texte dans le champ, puis cliquez sur Ajouter un commentaire.
    • Pour supprimer le commentaire, cliquez sur Annuler.

Gérer les incidents

Les incidents se trouvent dans l'un des états suivants :

  • Ouvert : L'ensemble de conditions de la règle d'alerte est rempli ou il n'y a pas de données indiquant que la condition n'est plus remplie. Si une règle d'alerte contient plusieurs conditions, les incidents sont ouverts en fonction de la manière dont ces conditions sont combinées. Pour en savoir plus, consultez la section Règles avec plusieurs conditions.

  •  Confirmé : L'incident est ouvert et a été marqué comme confirmé manuellement. En général, cet état indique que l'incident est en cours d'examen.

  • Fermée : le système a détecté que la condition n'est plus remplie, vous avez fermé l'incident ou sept jours se sont écoulés sans que le système n'ait observé que la condition était remplie.

Lorsque vous configurez une règle d'alerte, assurez-vous que l'état stable fournit un signal lorsque tout va bien. Cela est nécessaire pour s'assurer que l'état sans erreur peut être identifié et, si un incident est ouvert, qu'il doit être fermé. En l'absence de signal indiquant qu'une condition d'erreur s'est arrêtée, une fois un incident ouvert, il reste ouvert pendant sept jours après le déclenchement de la règle d'alerte.

Par exemple, si vous créez une règle d'alerte qui vous avertit lorsque le nombre d'erreurs est supérieur à 0, assurez-vous qu'elle génère 0 erreur lorsqu'il n'y a pas d'erreurs. Si la règle d'alerte renvoie une valeur nulle ou vide alors qu'elle ne comporte aucune erreur, aucun signal n'indique quand les erreurs se sont arrêtées. Dans certains cas, le langage MQL (Monitoring Query Language) vous permet de spécifier une valeur par défaut utilisée si aucune valeur mesurée n'est disponible. Vous trouverez un exemple dans la section Utiliser un format.

Confirmer des incidents

Lorsque vous commencez à enquêter sur la cause d'un incident, nous vous recommandons de le marquer comme confirmé.

Pour marquer un incident comme confirmé, procédez comme suit :

  • Dans le volet Incidents de la page Alertes, cliquez sur Voir tous les incidents.
  • Sur la page Incidents, recherchez l'incident que vous souhaitez confirmer, puis effectuez l'une des opérations suivantes :

    • Cliquez sur  Autres options, puis sélectionnez Confirmer.
    • Ouvrez la page de détails de l'incident, puis cliquez sur Confirmer l'incident.

Si votre règle d'alerte est configurée pour envoyer des notifications répétées, la confirmation d'un incident n'arrête pas les notifications. Pour les arrêter, effectuez l'une des opérations suivantes:

  • Créez une mise en pause pour la règle d'alerte.
  • Désactiver la règle d'alerte

Mettre en attente une règle d'alerte

Pour empêcher Monitoring de créer des incidents et d'envoyer des notifications pendant une période spécifique, mettez en pause la règle d'alerte associée. Lorsque vous mettez en pause une règle d'alerte, Monitoring ferme tous les incidents liés à cette règle.

Pour mettre en attente un incident que vous consultez, procédez comme suit:

  1. Sur la page Détails de l'incident, cliquez sur Mettre en attente.

  2. Sélectionnez la durée de répétition. Une fois que vous avez sélectionné la durée de répétition, celle-ci démarre immédiatement.

Sur la page des détails d'un incident, vous pouvez créer une mise en attente pour la règle d'alerte associée. Pour ce faire, cliquez sur Mettre en attente, puis sélectionnez une durée. La mise en attente démarre immédiatement. Vous pouvez également mettre en attente une règle d'alerte à partir de la page Incidents. Pour cela, recherchez l'incident que vous souhaitez mettre en attente, cliquez sur  Plus d'options, puis sélectionnez Mettre en attente. Vous pouvez mettre en attente les règles d'alerte en cas de panne pour éviter d'autres notifications pendant le processus de dépannage.

Fermer les incidents

Vous pouvez laisser Monitoring fermer un incident à votre place ou le fermer une fois que les observations cessent d'arriver. Si vous fermez un incident, puis que des données arrivent indiquant que la condition est remplie, un incident est créé. Lorsque vous fermez un incident, cette action ne ferme aucun autre incident ouvert pour la même condition. Si vous mettez en pause une règle d'alerte, les incidents ouverts sont fermés au début de la mise en pause.

Monitoring ferme automatiquement un incident dans les cas suivants :

  • Conditions de seuil des métriques:

    • Une observation, qui se produit, indique que le seuil n'est pas enfreint.
    • Aucune observation n'arrive. La condition est configurée pour fermer les incidents lorsque les observations cessent d'arriver, et l'état de la ressource sous-jacente est inconnu ou n'est pas désactivé.

    • Aucune observation n'arrive pour la durée de fermeture automatique de la règle d'alerte, et la condition n'est pas configurée pour fermer automatiquement les incidents lorsque les observations cessent d'arriver. Pour configurer la durée de fermeture automatique, vous pouvez utiliser la console Google Cloud ou l'API Cloud Monitoring. Par défaut, la durée de fermeture automatique est de sept jours. La durée minimale de la fermeture automatique est de 30 minutes.

  • Conditions d'absence de métrique:

    • Une observation se produit.
    • Aucune observation n'apparaît pendant les 24 heures suivant l'expiration de la durée de fermeture automatique de la règle d'alerte. Pour configurer la durée de fermeture automatique, vous pouvez utiliser la console Google Cloud ou l'API Cloud Monitoring. Par défaut, la durée de fermeture automatique est de sept jours.
  • Conditions de prévision:

    • Une prévision est générée et prédit que la série temporelle n'atteindra pas le seuil au cours de la période de prévision.
    • Aucune observation n'arrive pendant 10 minutes, la condition est configurée pour fermer les incidents lorsque les observations cessent d'arriver, et l'état de la ressource sous-jacente est inconnu ou n'est pas désactivé.

    • Aucune observation n'arrive pour la durée de fermeture automatique de la règle d'alerte, et la condition n'est pas configurée pour fermer automatiquement les incidents lorsque les observations cessent d'arriver.

Par exemple, une règle d'alerte a généré un incident car la latence de réponse HTTP était supérieure à deux secondes pendant dix minutes consécutives. Si la prochaine mesure de la latence de réponse HTTP est inférieure ou égale à deux secondes, alors l'incident est fermé. De même, si aucune donnée n'est reçue pendant sept jours, l'incident est fermé.

Pour fermer un incident, procédez comme suit :

  1. Dans le volet Incidents de la page Alertes, cliquez sur Voir tous les incidents.
  2. Sur la page Incidents, recherchez l'incident que vous souhaitez fermer, puis effectuez l'une des opérations suivantes :

    • Cliquez sur  Afficher plus, puis sélectionnez Fermer l'incident.
    • Ouvrez la page de détails de l'incident, puis cliquez sur Fermer l'incident.

Si le message Unable to close incident with active conditions s'affiche, cela signifie que l'incident ne peut pas être fermé, car les données ont été reçues au cours de la période d'alerte la plus récente.

Si le message Unable to close incident. Please try again in a few minutes. s'affiche, cela signifie que l'incident n'a pas pu être fermé en raison d'une erreur interne.

Conservation et limites des données

Pour en savoir plus sur les limites et la durée de conservation des incidents, consultez la section Limites d'alerte.

Étapes suivantes

* Pour en savoir plus sur le traitement conceptuel des règles d'alerte, consultez la section Comportement des règles d'alerte basées sur les métriques.