Incidents liés aux règles d'alerte basées sur des métriques

Un incident est un enregistrement indiquant quand la ou les conditions d'une alerte sont respectées. En règle générale, lorsque les conditions sont remplies, Cloud Monitoring ouvre un incident et envoie une notification. Toutefois, des incidents ne sont pas créés lorsque la règle est mise en veille ou désactivée, lorsqu'il y a trop d'incidents ouverts pour cette règle ou lorsque la ressource sous-jacente est connue pour être désactivée. De plus, lorsqu'une règle d'alerte contient plusieurs conditions, elle spécifie si le respect d'une seule condition suffit à créer un incident. Un incident est un enregistrement de la date et de l'heure à laquelle la condition d'une règle d'alerte est remplie. En règle générale, lorsqu'une condition est remplie, Cloud Monitoring ouvre un incident et envoie une notification lorsqu'un journal correspondant à la condition de votre règle d'alerte est reçu. Toutefois, les incidents ne sont pas créés dans les cas suivants :

  • La règle est mise en attente ou désactivée.
  • Le taux maximal de notifications dépasserait la limite de 1 notification toutes les 5 minutes pour chaque règle d'alerte basée sur les journaux.
  • Le nombre total de notifications quotidiennes dépasserait la limite de 20 notifications par jour pour chaque règle d'alerte basée sur les journaux.

Pour chaque incident, Monitoring crée une page Détails de l'incident qui vous permet de le gérer et qui fournit des informations qui peuvent vous aider à résoudre le problème. Par exemple, la page Détails de l'incident affiche la chronologie de l'incident et qui affiche les données de métriques surveillées. Vous trouverez également des liens vers les incidents associés et les entrées de journal.

Ce document explique comment rechercher vos incidents. Elle décrit également comment utiliser la page Détails de l'incident pour gérer pour les règles d'alerte basées sur les métriques, qui évaluent les données de séries temporelles stockées par Cloud Monitoring.

Avant de commencer

Assurez-vous de disposer des autorisations nécessaires:

Pour obtenir les autorisations nécessaires pour afficher et gérer les incidents à l'aide de la console Google Cloud, demandez à votre administrateur de vous accorder le les rôles IAM suivants sur votre projet:

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur les rôles Cloud Monitoring, consultez Contrôler les accès avec Identity and Access Management.

Rechercher des incidents

Pour afficher la liste des incidents dans votre projet Google Cloud, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Alertes :

    Accéder à l'interface des alertes

    Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.

    • Le volet Résumé présente le nombre d'incidents ouverts.
    • Le volet Incidents affiche les incidents ouverts les plus récents. Pour afficher les incidents les plus récents dans le tableau, y compris ceux qui sont fermés, cliquez sur Afficher les incidents fermés.
  2. Pour afficher les détails d'un incident spécifique, sélectionnez le dans la liste.

    La page Détails de l'incident s'ouvre. Pour en savoir plus sur la page Détails de l'incident, consultez la section Examiner un incident de cette page.

Rechercher des incidents plus anciens

Le volet Incidents de la page Alertes affiche les derniers incidents ouverts. Pour localiser les incidents plus anciens, effectuez l'une des opérations suivantes:

  • Pour parcourir les entrées du tableau Incidents, cliquez sur Plus récents ou sur Plus anciens.

  • Pour accéder à la page Incidents, cliquez sur Afficher tous les incidents. Sur la page Incidents, vous pouvez effectuer les opérations suivantes :

    • Afficher les incidents fermés: pour afficher tous les incidents dans le tableau, cliquez sur Afficher les incidents fermés.
    • Filtrer les incidents: pour en savoir plus sur l'ajout de filtres, consultez Filtrez les incidents.
    • Confirmer ou fermer un incident, ou mettre en pause sa règle d'alerte. Pour accéder à ces options, cliquez sur  Plus d'options sur la ligne de l'incident, et sélectionnez une option dans le menu. Pour plus d'informations, consultez la section Gérer les incidents.

Filtrer les incidents

Lorsque vous saisissez une valeur dans la barre de filtre, seuls les incidents correspondant au filtre sont présentés dans le tableau Incidents. Si vous ajoutez plusieurs filtres, un incident ne s'affiche que s'il répond à tous les filtres.

Pour ajouter un filtre au tableau des incidents, procédez comme suit :

  1. Sur la page Incidents, cliquez sur  Filtrer le tableau, puis sélectionnez une propriété de filtre. Les propriétés de filtre incluent tous les éléments suivants :

    • État de l'incident
    • Nom de la règle d'alerte
    • Date d'ouverture ou de fermeture de l'incident
    • Type de métrique
    • Type de ressource
  2. Sélectionnez une valeur dans le menu secondaire ou saisissez une valeur dans la barre de filtre.

    Par exemple, si vous sélectionnez Type de métrique et saisissez usage_time, seules les options suivantes peuvent s'afficher dans le menu secondaire:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Enquêter sur un incident

La page Détails de l'incident contient des informations qui peuvent vous aider à identifier la cause d'un incident.

Explorer les données de métrique

Pour analyser l'état de votre métrique avant et après l'incident, utilisez le graphique Métriques d'alerte. Ce graphique présente une chronologie série temporelle ayant causé la condition de votre règle d'alerte à atteindre.

Vous pouvez ajuster la période de la chronologie pour rechercher des tendances et des modèles dans vos données de métriques liées à l'incident :

  • Pour afficher uniquement la série temporelle à l'origine de l'événement doit être remplie et afficher toutes les séries temporelles auxquelles la condition évalue, cliquez sur Afficher toutes les séries temporelles.

  • Pour modifier la période affichée par le graphique, vous pouvez utiliser le sélecteur de période dans la barre d'outils ou mettre en surbrillance des périodes dans le graphique à l'aide de votre pointeur.

Vous pouvez également analyser vos données de métriques plus en détail en les consultant dans la Explorateur de métriques : Pour ce faire, accédez au graphique Métriques des alertes, puis cliquez sur Explorer les données. Par défaut, L'explorateur de métriques agrège et filtre les données de métriques le graphique s'aligne sur la série temporelle affichée sur la chronologie des métriques d'alerte.

Explorer les entrées de journal

Le volet Journaux de la page Détails de l'incident affiche les entrées de journal correspondant au type de ressource et aux libellés de la ressource surveillée pour votre métrique. Vous pouvez analyser ces entrées de journal pour trouver des informations supplémentaires qui pourraient vous aider à résoudre votre incident.

  • Pour afficher les entrées de journal dans l'explorateur de journaux, cliquez sur Afficher dans l'explorateur de journaux, puis sélectionnez un projet de définition de la portée. L'explorateur de journaux fournit des outils supplémentaires pour analyser les données des entrée de journal, comme une chronologie de la création des entrées de journal associées.
  • Pour afficher et modifier la requête utilisée pour filtrer les entrées de journal dans l'explorateur de métriques, cliquez sur  Explorer les données.

Afficher les informations supplémentaires

La section Étiquettes affiche les étiquettes et les valeurs de la ressource surveillée et les métriques de la série temporelle à l'origine de l'incident, ainsi que les étiquettes utilisateur définies dans la règle d'alerte. Ces informations peuvent vous aider à identifier la ressource surveillée spécifique qui a provoqué l'incident. Pour en savoir plus, consultez la section Annoter des incidents avec des libellés.

La section Documentation contient le modèle de documentation que vous avez fournies lors de la création de la règle d'alerte. Ces informations peuvent inclure une description de ce que la règle d'alerte surveille et des conseils pour l'atténuer. Pour en savoir plus, consultez Annotez les notifications avec de la documentation définie par l'utilisateur.

Si vous n'avez pas configuré de documentation pour votre règle d'alerte, le volet Documentation affiche "Aucune documentation n'est configurée".

Pour vous aider à détecter les problèmes sous-jacents dans votre application, vous pouvez les incidents liés à d'autres conditions des règles d'alerte.

La section Incidents associés affiche la liste des incidents correspondant à l'un des éléments suivants :

  • L'incident a été créé lorsqu'une condition de la même règle d'alerte a été satisfaite.
  • L'incident partage un libellé avec l'incident affiché sur la page "Incident". page d'informations.

Gérer les incidents

Les incidents se trouvent dans l'un des états suivants :

  •  Ouvert : l'ensemble de conditions de la règle d'alerte est rempli ou aucune donnée n'indique que la condition n'est plus remplie. Si une règle d'alerte contient plusieurs conditions, des incidents sont ouverts sur la façon dont ces conditions sont combinées. Pour en savoir plus, consultez la section Règles comportant plusieurs conditions.

  •  Confirmé : L'incident est ouvert et a été marqué comme confirmé manuellement. En général, cet état indique que l'incident est en cours d'examen.

  • Fermée : le système a détecté que la condition n'est plus remplie, vous avez fermé l'incident ou sept jours se sont écoulés sans que le système n'ait observé que la condition était remplie.

Lorsque vous configurez une règle d'alerte, assurez-vous que l'état stable fournit un signal lorsque tout va bien. Cela est nécessaire pour s'assurer que l'état sans erreur peut être identifié et, si un incident est ouvert, qu'il doit être fermé. Si aucun signal n'indique qu'une erreur s'est arrêtée, après l'ouverture d'un incident, il reste ouvert pendant 7 jours après le déclenchement de la règle d'alerte

Par exemple, si vous créez une règle d'alerte qui vous avertit lorsque le nombre est supérieure à 0, assurez-vous qu'elle génère un décompte de 0 erreur lorsqu'il n'y a pas d'erreur. Si la règle d'alerte renvoie une valeur nulle ou vide en l'état sans erreur, il n'y a aucun signal indiquant quand le les erreurs se sont arrêtées. Dans certains cas, le langage MQL (Monitoring Query Language) vous permet de spécifier une valeur par défaut utilisée si aucune valeur mesurée n'est disponible. Pour obtenir un exemple, consultez la section Utiliser des proportions.

Confirmer les incidents

Lorsque vous commencez à enquêter sur la cause d'un incident, nous vous recommandons de le marquer comme confirmé.

Pour marquer un incident comme confirmé, procédez comme suit :

  1. Dans le volet Incidents de la page Alertes, procédez comme suit : cliquez sur See all incidents (Voir tous les incidents).
  2. Sur la page Incidents, recherchez l'incident que vous souhaitez confirmer, puis effectuez l'une des opérations suivantes :

    • Cliquez sur  Autres options, puis sélectionnez Confirmer.
    • Ouvrez la page de détails de l'incident, puis cliquez sur Confirmer l'incident.

Si votre règle d'alerte est configurée pour envoyer des notifications répétées, l'accusé de réception d'un incident n'arrête pas les notifications. Pour les arrêter, effectuez l'une des opérations suivantes :

  • Créez un rappel pour la règle d'alerte.
  • Désactivez la règle d'alerte.

Mettre en pause une règle d'alerte

Pour empêcher Monitoring de créer des incidents et d'envoyer notifications pendant une période spécifique, mettre en attente la règle d'alerte associée. Lorsque vous mettez en pause une règle d'alerte, Monitoring ferme également liés à la règle d'alerte.

Pour mettre en attente un incident que vous consultez, procédez comme suit:

  1. Sur la page Détails de l'incident, cliquez sur Règle de mise en attente.

  2. Sélectionnez la durée de répétition. Une fois que vous avez sélectionné la durée de la mise en pause, celle-ci commence immédiatement.

Vous pouvez également mettre en attente une règle d'alerte depuis la page Incidents en recherchant l'incident que vous souhaitez mettre en attente,  Autres options, puis sélectionnez Mettre en attente. Vous pouvez mettre en attente les règles d'alerte en cas d'indisponibilité pour éviter que des notifications pendant le processus de dépannage.

Clôturer des incidents

Vous pouvez laisser Monitoring fermer un incident à votre place ou fermer un incident après l’arrêt des observations. Si vous fermez un incident, puis que des données arrivent indiquant que la condition est remplie, un nouvel incident est créé. Lorsque vous fermez un incident, ne ferme aucun autre incident ouvert dans le même état. Si vous mettez en attente une règle d'alerte, les incidents ouverts fermé au début de la mise en attente.

Monitoring ferme automatiquement un incident dans les cas suivants :

  • Conditions de seuil des métriques:

    • Une observation, qui se produit, indique que le seuil n'est pas enfreint.
    • Aucune observation n'est arrivée, la condition est configurée pour fermer les incidents lorsque les observations cessent d'arriver, et l'état de la ressource sous-jacente est inconnue ou n'est pas désactivée.

    • Aucune observation n'est arrivée pendant la durée de fermeture automatique de l'alerte et que la condition n'est pas configurée pour fermer automatiquement les incidents quand les observations cessent d'arriver. Pour configurer la durée de la fermeture automatique, vous pouvez utiliser la console Google Cloud ou l'API Cloud Monitoring. Par défaut, la durée de fermeture automatique est de sept jours. La durée minimale de la fermeture automatique est de 30 minutes.

  • Conditions d'absence de métrique:

    • Une observation se produit.
    • Aucune observation n'arrive pendant 24 heures après l'expiration de la durée de fermeture automatique de la règle d'alerte. Pour configurer la durée de fermeture automatique, vous pouvez utiliser la console Google Cloud ou API Cloud Monitoring. Par défaut, la durée de fermeture automatique est de sept jours.
  • Conditions prévues :

    • Une prévision est générée et indique que la série temporelle ne dépassera pas le seuil au cours de la période de prévision.
    • Aucune observation n'arrive pendant 10 minutes, la condition est configuré pour fermer les incidents lorsque les observations cessent d'arriver ; l'état de la ressource sous-jacente est inconnu ou n'est pas désactivé.

    • Aucune observation n'arrive pendant la durée de fermeture automatique de la règle d'alerte, et la condition n'est pas configurée pour fermer automatiquement les incidents lorsque les observations cessent d'arriver.

Par exemple, une règle d'alerte a généré un incident car la latence de réponse HTTP était supérieure à deux secondes pendant dix minutes consécutives. Si la prochaine mesure de la latence de réponse HTTP est inférieure ou égale à deux secondes, alors l'incident est fermé. De même, si aucune donnée n'est reçue pendant sept jours, l'incident est fermé.

Pour fermer un incident, procédez comme suit :

  1. Dans le volet Incidents de la page Alertes, cliquez sur Voir tous les incidents.
  2. Sur la page Incidents, recherchez l'incident que vous souhaitez fermer, puis effectuez l'une des opérations suivantes :

    • Cliquez sur  Afficher plus, puis sélectionnez Clôturer l'incident
    • Ouvrez la page Détails de l'incident correspondante. puis cliquez sur Fermer l'incident.
Si le message Unable to close incident with active conditions s'affiche, cela signifie que l'incident ne peut pas être fermé, car les données ont été reçues au cours de la période d'alerte la plus récente.

Si le message Unable to close incident. Please try again in a few minutes. s'affiche, cela signifie que l'incident n'a pas pu être fermé en raison d'une erreur interne.

Conservation et limites des données

Pour en savoir plus sur les limites et la période de conservation des incidents, consultez la section Limites pour les alertes.

Étape suivante