Gérer les incidents pour les règles d'alerte basées sur les journaux

Un incident est un enregistrement du moment où la condition d'une règle d'alerte ou sont remplies. Généralement, lorsque les conditions sont remplies, Cloud Monitoring ouvre un incident envoie une notification à la réception d'un journal qui correspond à la condition de vos alertes basées sur les journaux . Toutefois, les incidents ne sont pas créés dans les cas suivants:

  • La règle est mise en attente ou désactivée.
  • Le taux maximal de notifications dépasserait la limite de 1 notification toutes les 5 minutes pour chaque alerte basée sur les journaux.
  • Le nombre total de notifications quotidiennes dépasserait la limite de 20 notifications par jour pour chaque alerte basée sur les journaux.

Ce document explique comment afficher, examiner et gérer les incidents pour les règles d'alerte basées sur les journaux.

Avant de commencer

Assurez-vous de disposer des autorisations nécessaires:

Pour en savoir plus sur les rôles Cloud Monitoring, consultez Contrôler les accès avec Identity and Access Management.

Rechercher des incidents

Pour afficher la liste des incidents, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page Alertes :

    Accéder à l'interface des alertes

    Si vous utilisez la barre de recherche pour trouver cette page, sélectionnez le résultat dont le sous-titre est Monitoring.

    • Le volet Résumé présente le nombre d'incidents ouverts.
    • Le volet Incidents affiche les incidents ouverts les plus récents. Pour afficher les incidents les plus récents dans le tableau, y compris ceux qui sont fermés, cliquez sur Afficher les incidents fermés.
  2. Facultatif: Pour afficher les détails d'un incident spécifique, sélectionnez le dans la liste. La page Détails de l'incident s'ouvre. Pour plus d'informations sur cette page, consultez la section Examiner les incidents de cette page.

Rechercher des incidents plus anciens

Le volet Incidents de la page Alertes affiche les derniers incidents ouverts. Pour localiser les incidents plus anciens, effectuez l'une des opérations suivantes:

  • Pour parcourir les entrées du tableau Incidents, cliquez sur Plus récents ou sur Plus anciens.

  • Pour accéder à la page Incidents, cliquez sur Afficher tous les incidents. De Incidents, vous pouvez effectuer les opérations suivantes:

    • Afficher les incidents fermés: pour afficher tous les incidents dans le tableau, cliquez sur Afficher les incidents fermés.
    • Filtrer les incidents: pour en savoir plus sur l'ajout de filtres, consultez Filtrez les incidents.
    • Confirmer ou fermer un incident, ou mettre en pause sa règle d'alerte. Pour accéder à ces options, cliquez sur  Plus d'options sur la ligne de l'incident, et sélectionnez une option dans le menu. Pour plus d'informations, consultez la section Gérer les incidents.

Filtrer les incidents

Lorsque vous saisissez une valeur dans la barre de filtre, seuls les incidents correspondant au filtre sont présentés dans le tableau Incidents. Si vous ajoutez plusieurs filtres, alors un incident n’est affiché que s’il répond à tous les filtres.

Pour ajouter un filtre au tableau des incidents, procédez comme suit :

  1. Sur la page Incidents, cliquez sur  Filtrer le tableau, puis sélectionnez une propriété de filtre. Les propriétés de filtrage incluent toutes les suivantes:

    • État de l'incident
    • Nom de la règle d'alerte
    • Date d'ouverture ou de fermeture de l'incident
  2. Sélectionnez une valeur dans le menu secondaire ou saisissez une valeur dans la barre de filtre.

Enquêter sur les incidents

Une fois que vous avez trouvé l'incident que vous souhaitez enquêter, accédez à la la page Détails de l'incident correspondante. Pour afficher les détails, sélectionnez le résumé de l'incident dans le tableau des incidents Alertes ou Incidents.

Si vous avez reçu une notification contenant un lien l'incident, vous pouvez utiliser ce lien pour afficher les détails de l'incident.

La page Détails de l'incident fournit les informations suivantes:

  • Les informations d'état, y compris:

    • Nom: nom de la règle d'alerte à l'origine du problème l'incident.
    • État : état de l'incident (ouvert, confirmé, ou fermé.
    • Gravité : gravité de l'incident
      • Aucune gravité
      • Critique
      • Erreur
      • Avertissement
    • Durée: durée de l'incident ouvert.
  • Un volet Journaux, qui affiche les entrées de journal correspondant à l'alerte requête. Ce volet vous permet de filtrer ces entrées l'investigation.

    Pour actualiser la liste des entrées de journal, cliquez sur  Actualiser. Pour afficher les journaux dans l'explorateur de journaux, cliquez sur  Afficher dans l'explorateur de journaux

  • Informations sur la règle d'alerte à l'origine de l'incident:

    • Volet Condition: identifie la condition dans l'alerte à l'origine de l'incident. Pour les règles d'alerte basées sur les journaux créées à l'aide de la classe Explorateur de journaux, le nom de la condition est toujours "Journal condition de correspondance."

      Ce volet indique également le délai entre les notifications, et la durée de fermeture automatique de la règle d'alerte.

    • Volet Message: fournit une brève explication de la cause. en fonction de la configuration de la condition de la règle d'alerte. Ce volet est toujours renseigné.

    • Volet Documentation: affiche le modèle de documentation pour que vous avez fournies lors de la création de la règle d'alerte. Ces informations peuvent inclure une description de surveillance et incluent des conseils pour réduire les risques encourus.

      Si vous avez ignoré ce champ lors de la création de la règle d'alerte, ce volet indique "Aucune documentation n'est configuré."

  • Libellés: indique les éléments suivants:
    • Étiquettes et valeurs de la ressource surveillée incluses dans l'entrée de journal à l'origine de l'incident. Ces informations peuvent vous aider à identifier ressource qui est à l'origine de l'incident. Ces étiquettes sont également indiqué dans la chaîne Message.
    • Toutes les étiquettes et valeurs spécifiées par l'utilisateur que vous avez définies dans l'alerte . Vous pouvez utiliser ces étiquettes pour organiser et identifier règles d'alerte. Les libellés associés à une stratégie dans la section Libellés de stratégie, tandis que les libellés définis dans le cadre une condition sont listés dans la section Libellés de métriques. Métadonnées les libellés ne s'affichent que si un filtre ou un groupe dépend de l'étiquette. Pour en savoir plus, consultez Annoter les alertes à l'aide de libellés

La page Détails de l'incident fournit également des outils permettant d'examiner l'incident:

  • Liens vers d'autres outils de dépannage La configuration de votre projet, votre règle d'alerte et l'âge de l'incident déterminent les liens disponibles.
    • Pour afficher la page de détails de la règle d'alerte, cliquez sur Afficher la règle.
    • Pour modifier la définition de la règle d'alerte, cliquez sur Modifier la règle.
    • Pour consulter les entrées de journaux associées dans l'explorateur de journaux, cliquez sur Afficher les journaux. Pour en savoir plus, consultez Affichez les journaux à l'aide du Explorateur de journaux :
  • Annotations : fournit un journal des résultats, suggestions ou autres commentaires issus de votre enquête sur l'incident.
    • Pour ajouter une annotation, saisissez du texte dans le champ, puis cliquez sur Ajouter un commentaire.
    • Pour supprimer le commentaire, cliquez sur Annuler.

Gérer les incidents

Les incidents se trouvent dans l'un des états suivants :

  • Ouvert: La condition de la règle d'alerte basée sur les journaux est remplie et l'incident est toujours ouvert. Si la même condition est remplie à nouveau et qu'un incident est déjà ouvert, alors qu'aucun nouvel incident n'est ouvert.

  •  Confirmé : L'incident est ouvert et a été marqué comme confirmé manuellement. En général, cet état indique que l'incident est en cours d'examen.

  • Fermé: Vous avez fermé manuellement l'incident ou il a été fermé automatiquement après l'expiration du délai de fermeture automatique.

Confirmer des incidents

Lorsque vous commencez à enquêter sur la cause d'un incident, nous vous recommandons de le marquer comme confirmé.

Pour marquer un incident comme confirmé, procédez comme suit :

  • Dans le volet Incidents de la page Alertes, procédez comme suit : cliquez sur See all incidents (Voir tous les incidents).
  • Sur la page Incidents, recherchez l'incident que vous souhaitez confirmer, puis effectuez l'une des opérations suivantes :

    • Cliquez sur  Autres options, puis sélectionnez Confirmer.
    • Ouvrez la page de détails de l'incident, puis cliquez sur Confirmer l'incident.

Mettre en attente une règle d'alerte

Pour empêcher Monitoring de créer des incidents et d'envoyer notifications pendant une période spécifique, mettre en attente la règle d'alerte associée. Lorsque vous mettez en pause une règle d'alerte, les incidents liés à cette règle restent ouvertes, mais ne déclenchent plus de notifications. Les incidents se ferment le délai de fermeture automatique de la règle d'alerte.

Pour mettre en attente un incident que vous consultez, procédez comme suit:

  1. Sur la page Détails de l'incident, cliquez sur Mettre en attente.

  2. Sélectionnez la durée de répétition. Une fois que vous avez sélectionné la durée de répétition, commence immédiatement.

Lorsque vous affichez la page de détails d'un incident, vous pouvez créer une mise en attente pour l'événement la règle d'alerte associée en cliquant sur Mettre en attente, puis en sélectionnant de la vidéo. La mise en attente démarre immédiatement. Vous pouvez également mettre une règle d'alerte en attente depuis la page Incidents en recherchant que vous souhaitez mettre en attente, cliquez sur  Autres options, puis sélectionnez Mettre en attente. Vous pouvez mettre en attente les règles d'alerte en cas d'indisponibilité pour éviter que des notifications pendant le processus de dépannage.

Fermer les incidents

Vous pouvez laisser Monitoring fermer un incident à votre place, ou vous pouvez fermer l'incident.

Monitoring ferme automatiquement un incident lorsque la fermeture automatique la durée de la règle d'alerte expire. Par défaut, la durée de fermeture automatique est de 7 jours. La durée minimale de la fermeture automatique est de 30 minutes.

Pour fermer un incident, procédez comme suit :

  1. Dans le volet Incidents de la page Alertes, procédez comme suit : cliquez sur See all incidents (Voir tous les incidents).
  2. Sur la page Incidents, recherchez l'incident que vous souhaitez fermer, puis effectuez l'une des opérations suivantes :

    • Cliquez sur  Afficher plus, puis sélectionnez Clôturer l'incident
    • Ouvrez la page de détails de l'incident, puis cliquez sur Fermer l'incident.
Si le message Unable to close incident s'affiche, réessayez dans quelques minutes. Vous ne pouvez pas fermer un nouvel incident immédiatement, car les conditions qui à l'origine de l'incident sont toujours considérés comme actifs par le système d'alerte.

Conservation et limites des données

Pour en savoir plus sur les limites et la durée de conservation des incidents, consultez la section Limites des alertes.

Étape suivante