Gérer les incidents pour les règles d'alerte basées sur les journaux

Un incident est un enregistrement qui indique quand une règle d'alerte est remplie. En règle générale, lorsqu'une condition est remplie, Cloud Monitoring ouvre un incident et envoie une notification à la réception d'un journal qui correspond à la condition de votre règle d'alerte. Toutefois, les incidents ne sont pas créés dans les cas suivants :

  • La règle est mise en attente ou désactivée.
  • Le taux maximal de notifications dépasserait la limite de 1 notification toutes les 5 minutes pour chaque règle d'alerte basée sur les journaux.
  • Le nombre total de notifications quotidiennes dépasserait la limite de 20 notifications par jour pour chaque règle d'alerte basée sur les journaux.

Pour chaque incident, Monitoring crée un Détails de l'incident qui vous permet de gérer l'incident et de consigner les informations qui peuvent vous aider à résoudre la défaillance. Par exemple, la page Détails de l'incident affiche la liste des entrées de journal qui correspondent à la requête de la règle d'alerte basée sur les journaux. Vous pouvez également trouver des liens vers des incidents associés.

Ce document explique comment trouver vos incidents. Elle explique également comment utiliser la page Détails de l'incident pour gérer les incidents liés aux règles d'alerte basées sur les journaux, qui évaluent les données d'entrée de journal stockées dans des journaux individuels dans Cloud Logging.

Avant de commencer

Assurez-vous de disposer des autorisations nécessaires:

Pour obtenir les autorisations nécessaires pour afficher et gérer les incidents à l'aide de la console Google Cloud, demandez à votre administrateur de vous accorder le les rôles IAM suivants sur votre projet:

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur les rôles Cloud Monitoring, consultez Contrôler les accès avec Identity and Access Management.

Rechercher des incidents

Pour afficher la liste des incidents dans votre projet Google Cloud, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Alertes :

    Accéder à l'interface des alertes

    Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.

    • Le volet Résumé présente le nombre d'incidents ouverts.
    • Le volet Incidents affiche les incidents les plus récents. Pour afficher les incidents les plus récents dans le tableau, y compris ceux qui sont fermés, cliquez sur Afficher les incidents fermés.
  2. Pour afficher les détails d'un incident spécifique, sélectionnez-le dans la liste.

    La page Détails de l'incident s'ouvre. Pour en savoir plus sur la page Détails de l'incident, consultez la Examiner un incident de cette page.

Rechercher des incidents plus anciens

Le volet Incidents de la page Alertes affiche les derniers incidents ouverts. Pour localiser les incidents plus anciens, effectuez l'une des opérations suivantes:

  • Pour parcourir les entrées du tableau Incidents, cliquez sur Plus récents ou sur Plus anciens.

  • Pour accéder à la page Incidents, cliquez sur Afficher tous les incidents. De Incidents, vous pouvez effectuer les opérations suivantes:

    • Afficher les incidents fermés: pour afficher tous les incidents dans le tableau, cliquez sur Afficher les incidents fermés.
    • Filtrer les incidents : pour en savoir plus sur l'ajout de filtres, consultez la section Filtrer les incidents.
    • Confirmer ou fermer un incident, ou mettre en pause sa règle d'alerte. Pour accéder à ces options, cliquez sur  Plus d'options sur la ligne de l'incident, et sélectionnez une option dans le menu. Pour plus d'informations, consultez la section Gérer les incidents.

Filtrer les incidents

Lorsque vous saisissez une valeur dans la barre de filtre, seuls les incidents correspondant au filtre sont présentés dans le tableau Incidents. Si vous ajoutez plusieurs filtres, alors un incident n’est affiché que s’il répond à tous les filtres.

Pour ajouter un filtre au tableau des incidents, procédez comme suit :

  1. Sur la page Incidents, cliquez sur  Filtrer le tableau, puis sélectionnez une propriété de filtre. Les propriétés de filtrage incluent toutes les suivantes:

    • État de l'incident
    • Nom de la règle d'alerte
    • Date d'ouverture ou de fermeture de l'incident
  2. Sélectionnez une valeur dans le menu secondaire ou saisissez une valeur dans la barre de filtre.

Enquêter sur un incident

La page Détails de l'incident contient des informations qui peuvent vous aider à identifier la cause d'un incident.

Explorer les entrées de journal

Explorez les entrées de journal pour identifier des tendances et des problèmes récurrents l'investigation. Le volet Journaux affiche les entrées de journal correspondant à la requête de votre d'alerte basée sur les journaux.

  • Pour afficher les entrées de journal dans l'explorateur de journaux, cliquez sur Afficher dans l'explorateur de journaux, puis sélectionnez un projet de définition de la portée.
  • Pour afficher le panneau "Journaux" dans l'Explorateur de métriques, cliquez sur Explorer les données.

Afficher les informations supplémentaires

La section Étiquettes affiche les étiquettes et les valeurs de la ressource surveillée incluses dans l’entrée de journal qui a causé l’incident. Ces informations peuvent vous aider à identifier la ressource surveillée spécifique qui a provoqué l'incident. Pour en savoir plus, consultez la section Annoter des incidents avec des libellés.

La section Documentation affiche le modèle de documentation des notifications que vous avez fourni lors de la création de la règle d'alerte. Ces informations peuvent inclure une description de ce que la règle d'alerte surveille et des conseils pour l'atténuer. Pour en savoir plus, consultez Annotez les notifications avec de la documentation définie par l'utilisateur.

Si vous n'avez pas configuré de documentation pour votre règle d'alerte, le volet Documentation affiche "Aucune documentation n'est configurée".

Pour vous aider à détecter les problèmes sous-jacents dans votre application, vous pouvez les incidents liés à d'autres conditions des règles d'alerte.

La section Incidents associés affiche la liste des incidents correspondant à l'un des éléments suivants :

  • L'incident a été créé lorsqu'une condition de la même règle d'alerte a été satisfaite.
  • L'incident partage un libellé avec l'incident affiché sur la page "Incident". page d'informations.

Gérer les incidents

Les incidents se trouvent dans l'un des états suivants :

  •  Ouvert : la condition de la règle d'alerte basée sur les journaux a été remplie et l'incident est toujours ouvert. Si la même condition est à nouveau remplie et qu'un incident est déjà ouvert, aucun nouvel incident n'est ouvert.

  •  Confirmé : L'incident est ouvert et a été marqué comme confirmé manuellement. En général, cet état indique que l'incident est en cours d'examen.

  •  Fermé : Vous avez fermé manuellement l'incident ou il a été fermé automatiquement à l'expiration de la période de fermeture automatique.

Confirmer des incidents

Lorsque vous commencez à enquêter sur la cause d'un incident, nous vous recommandons de le marquer comme confirmé.

Pour marquer un incident comme confirmé, procédez comme suit :

  1. Dans le volet Incidents de la page Alertes, cliquez sur Voir tous les incidents.
  2. Sur la page Incidents, recherchez l'incident que vous souhaitez confirmer, puis effectuez l'une des opérations suivantes :

    • Cliquez sur  Autres options, puis sélectionnez Confirmer.
    • Ouvrez la page de détails de l'incident, puis cliquez sur Confirmer l'incident.

Mettre en attente une règle d'alerte

Pour empêcher Monitoring de créer des incidents et d'envoyer notifications pendant une période spécifique, mettre en attente la règle d'alerte associée. Lorsque vous mettez en pause une règle d'alerte, les incidents liés à cette règle restent ouvertes, mais ne déclenchent plus de notifications. Les incidents se ferment le délai de fermeture automatique de la règle d'alerte.

Pour mettre en attente un incident que vous consultez, procédez comme suit:

  1. Sur la page Détails de l'incident, cliquez sur Règle de mise en attente.

  2. Sélectionnez la durée de la répétition. Une fois que vous avez sélectionné la durée de la mise en pause, celle-ci commence immédiatement.

Vous pouvez également mettre en attente une règle d'alerte depuis la page Incidents en recherchant l'incident que vous souhaitez mettre en attente,  Autres options, puis sélectionnez Mettre en attente. Vous pouvez mettre en attente les règles d'alerte en cas d'indisponibilité pour éviter que des notifications pendant le processus de dépannage.

Fermer les incidents

Vous pouvez laisser Monitoring fermer un incident à votre place, ou vous pouvez fermer l'incident.

Monitoring ferme automatiquement un incident lorsque la fermeture automatique la durée de validité de la règle d'alerte expire. Par défaut, la durée de fermeture automatique est de sept jours. La durée minimale de la fermeture automatique est de 30 minutes.

Pour fermer un incident, procédez comme suit :

  1. Dans le volet Incidents de la page Alertes, procédez comme suit : cliquez sur See all incidents (Voir tous les incidents).
  2. Sur la page Incidents, recherchez l'incident que vous souhaitez fermer, puis effectuez l'une des opérations suivantes :

    • Cliquez sur  Afficher plus, puis sélectionnez Fermer l'incident.
    • Ouvrez la page Détails de l'incident correspondante. puis cliquez sur Fermer l'incident.
Si le message Unable to close incident s'affiche, réessayez dans quelques minutes. Vous ne pouvez pas fermer un nouvel incident immédiatement, car les conditions à l'origine de l'incident sont toujours considérés comme actifs par le système d'alerte.

Conservation et limites des données

Pour en savoir plus sur les limites et la durée de conservation des incidents, consultez la section Limites des alertes.

Étape suivante