Incidents liés aux alertes basées sur des métriques

Un incident est un enregistrement du déclencheur d'une règle d'alerte. Cloud Monitoring ouvre un incident lorsqu'une condition d'une règle d'alerte est remplie.

Cette page explique comment afficher, examiner et gérer les incidents liés aux règles d'alerte basées sur les métriques.

Rechercher des incidents

Pour afficher la liste des incidents, procédez comme suit :

  1. Dans la barre d'outils Cloud Console, cliquez sur  Menu de navigation, puis sélectionnez Surveillance :

    Accéder à Monitoring

  2. Dans le volet de navigation Monitoring, sélectionnez  Alertes :

    • Le volet Résumé présente le nombre d'incidents ouverts.
    • Le volet Incidents affiche les incidents les plus récents. Pour masquer les incidents fermés dans le tableau, cliquez sur Masquer les incidents fermés.

Rechercher des incidents plus anciens

Le volet Incidents de la page Alertes affiche les derniers incidents ouverts. Pour localiser les incidents plus anciens, effectuez l'une des opérations suivantes:

  • Pour parcourir les entrées du tableau Incidents, cliquez sur Plus récents ou sur Plus anciens.

  • Pour accéder à la page Incidents, cliquez sur Afficher tous les incidents. Sur la page Incidents, vous pouvez effectuer les opérations suivantes :

    • Masquer les incidents fermés : pour ne lister que les incidents ouverts du tableau, cliquez sur Masquer les incidents fermés.
    • Filtrer les incidents : pour en savoir plus sur l'ajout de filtres, consultez la section Filtrer les incidents.
    • Confirmer, mettre sous silence ou fermer un incident : pour accéder à ces options, cliquez sur  Autres options sur la ligne de l'incident et effectuez une sélection dans le menu. Pour en savoir plus, consultez la section Gérer les incidents.

Filtrer les incidents

Lorsque vous saisissez une valeur dans la barre de filtre, seuls les incidents correspondant au filtre sont présentés dans le tableau Incidents. Si vous ajoutez plusieurs filtres, un incident ne s'affiche que s'il répond à tous les filtres définis.

Pour ajouter un filtre au tableau des incidents, procédez comme suit :

  1. Sur la page Incidents, cliquez sur  Filtrer le tableau, puis sélectionnez une propriété de filtre. Les propriétés de filtre incluent tous les éléments suivants :

    • État de l'incident
    • Nom de la règle d'alerte
    • Date d'ouverture ou de fermeture de l'incident
    • Type de métrique
    • Type de ressource
  2. Sélectionnez une valeur dans le menu secondaire ou saisissez une valeur dans la barre de filtre.

    Par exemple, si vous sélectionnez Type de métrique et saisissez usage_time, seules les options suivantes peuvent s'afficher dans le menu secondaire:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Examiner les incidents

Pour afficher les détails d'un incident, vous devez au moins disposer du rôle Identity and Access Management roles/monitoring.viewer. Pour en savoir plus, consultez la section Impossible d'afficher les détails de l'incident en raison d'une erreur d'autorisation.

Une fois que vous avez trouvé l'incident que vous souhaitez examiner, accédez à la page Détails de l'incident correspondant. Pour afficher les détails, cliquez sur le résumé des incidents dans le tableau des incidents sur la page Alertes ou sur la page Incidents.

Si vous avez reçu une notification incluant un lien vers l'incident, cliquez dessus pour en afficher les détails.

La capture d'écran suivante montre la page de détails d'un incident:

Cette page fournit des informations récapitulatives et des outils d'investigation pour un incident.

La page Détails de l'incident fournit les informations suivantes:

  • Les informations d'état, y compris:

    • Nom: nom de la règle d'alerte à l'origine de cet incident.
    • État: état de l'incident: ouvert, confirmé ou fermé.
    • Duration: durée de l'ouverture de l'incident.
  • Informations sur la règle d'alerte à l'origine de l'incident:

    • Condition: condition de la règle d'alerte à l'origine de l'incident.
    • Message: brève explication de la cause basée sur la configuration de la condition dans la règle d'alerte. Ce volet est toujours renseigné.
    • Documentation: documentation (facultative) des notifications fournies lors de la création de la règle d'alerte. Ces informations peuvent inclure une description de ce que la règle d'alerte surveille et des conseils pour l'atténuer. Si vous avez ignoré ce champ lors de la création de la règle d'alerte, le texte de ce volet est "Aucune documentation n'est configurée".
  • Labels (Libellés) : libellés et valeurs de la ressource surveillée et de la métrique de la série temporelle ayant déclenché la règle d'alerte. Ces informations peuvent vous aider à identifier la ressource surveillée spécifique qui a provoqué l'incident.

La page Détails de l'incident fournit également des outils permettant d'examiner l'incident:

  • Chronologie de l'incident: affiche deux représentations visuelles de l'incident:

    • Une barre rouge au-dessus d'un axe de temps représente l'incident, et sa longueur et sa position reflètent la durée de l'incident.
    • Un graphique montre les données de séries temporelles et le seuil utilisés par la règle d'alerte à l'origine de l'incident. L'incident a été ouvert lorsqu'une série temporelle a satisfait à une condition de la règle d'alerte.

    L'axe des temps indique la durée de l'incident avec deux points comportant un libellé. La position de ces points sur l'axe de temps détermine la plage de données affichée sur le graphique associé à la chronologie de l'incident. Par défaut, un point est placé à l'ouverture de l'incident et un à la fermeture, ou à l'heure actuelle si celui-ci est toujours ouvert.

    Vous pouvez modifier la période de la chronologie de l'incident et du graphique:

    • Pour modifier la période affichée sur le graphique, faites glisser l'un des points le long de l'axe de temps. Cette technique vous permet de vous concentrer sur des intervalles spécifiques, par exemple vers le début ou la fin de l'incident.

      La modification du graphique en faisant glisser les points sur l'axe définit une valeur personnalisée dans le menu Période et désactive le menu. Pour activer le menu Période, cliquez sur Réinitialiser.

    • Pour modifier la plage affichée dans la chronologie, sélectionnez une plage dans le menu Période.

  • Liens vers d'autres outils de dépannage La configuration de votre projet, votre règle d'alerte et l'âge de l'incident déterminent les liens disponibles.
    • Pour afficher la page de détails de la règle d'alerte, cliquez sur Afficher la règle.
    • Pour modifier la définition de la règle d'alerte, cliquez sur Modifier la règle.
    • Pour accéder à un tableau de bord des informations sur les performances de la ressource, cliquez sur Afficher les détails de la ressource.
    • Pour consulter les entrées de journaux associées dans l'explorateur de journaux, cliquez sur Afficher les journaux. Pour en savoir plus, consultez la page Utiliser l'explorateur de journaux.
    • Pour examiner les données du graphique, cliquez sur Afficher dans l'explorateur de métriques.
  • Annotations : fournit un journal des résultats, suggestions ou autres commentaires issus de votre enquête sur l'incident.
    • Pour ajouter une annotation, saisissez du texte dans le champ, puis cliquez sur Ajouter un commentaire.
    • Pour supprimer le commentaire, cliquez sur Annuler.

Vous pouvez également confirmer, mettre sous silence ou ignorer les incidents à partir de la page Détails de l'incident. Pour en savoir plus, consultez la section Gérer les incidents.

Gérer les incidents

Les incidents se trouvent dans l'un des états suivants :

  • ouverte : l'ensemble de conditions de la règle est rempli ou aucune donnée n'indique que la condition n'est plus remplie. Si une règle contient plusieurs conditions, l'ouverture des incidents dépend de la manière dont ces conditions sont combinées. Pour plus d'informations, reportez-vous à la section Combiner des conditions.

  •  Confirmé : L'incident est ouvert et a été marqué comme confirmé manuellement. En général, cet état indique que l'incident est en cours d'examen.

  • Fermée : le système a détecté que la condition n'est plus remplie, vous avez fermé l'incident ou sept jours se sont écoulés sans que le système n'ait observé que la condition était remplie.

Lorsque vous configurez une règle d'alerte, assurez-vous que l'état stable fournit un signal lorsque tout va bien. Cela est nécessaire pour s'assurer que l'état sans erreur peut être identifié et, si un incident est ouvert, qu'il doit être fermé. Si aucun signal n'indique qu'une condition d'erreur s'est arrêtée, après l'ouverture d'un incident, elle reste ouverte pendant sept jours après le déclenchement de la règle.

Par exemple, si vous créez une règle qui vous avertit lorsque le nombre d'erreurs est supérieur à 0, assurez-vous qu'il génère un nombre de 0 erreur en l'absence d'erreurs. Si la règle renvoie la valeur null ou vide dans l'état sans erreur, aucun signal n'indique l'arrêt des erreurs. Dans certains cas, le langage MQL (Monitoring Query Language) vous permet de spécifier une valeur par défaut utilisée si aucune valeur mesurée n'est disponible. Pour obtenir un exemple, consultez la section Utiliser des proportions.

Pour gérer les incidents, votre rôle doit inclure l'autorisation monitoring.alertPolicy.create ou monitoring.alertPolicy.update. Ces autorisations sont incluses dans le rôle Éditeur Monitoring, roles/monitoring.editor. Pour en savoir plus sur les rôles et les autorisations, consultez la page intitulée Contrôle des accès : rôles prédéfinis.

Confirmer des incidents

Lorsque vous commencez à enquêter sur la cause d'un incident, nous vous recommandons de le marquer comme confirmé.

Pour marquer un incident comme confirmé, procédez comme suit :

  • Dans le volet Incidents du tableau de bord Alertes, cliquez sur Voir tous les incidents.
  • Sur la page Incidents, recherchez l'incident que vous souhaitez confirmer, puis effectuez l'une des opérations suivantes :

    • Cliquez sur  Autres options, puis sélectionnez Confirmer.
    • Ouvrez la page de détails de l'incident, puis cliquez sur Confirmer l'incident.

Mettre des incidents sous silence

Pour fermer tous les incidents ouverts associés à une condition d'une règle d'alerte, mettez un incident associé à cette condition sous silence. Par exemple, supposons qu'une règle d'alerte comporte une condition qui surveille 10 séries temporelles. La condition est remplie si une série temporelle dépasse un seuil de un. Si cinq des séries temporelles dépassent le seuil, cinq incidents sont créés. Si vous mettez l'un de ces incidents sous silence, les cinq incidents sont fermés.

La mise sous silence d'un incident ne règle pas la cause sous-jacente de l'incident. Autrement dit, si une condition de cette règle d'alerte est remplie lors du prochain cycle d'alerte, un incident est ouvert pour cette condition.

Lorsqu'une règle d'alerte contient plusieurs conditions, la mise sous silence d'un incident pour une condition ne ferme pas les incidents ouverts pour les autres conditions.

Pour mettre un incident sous silence, procédez comme suit:

  • Dans le volet Incidents du tableau de bord Alertes, cliquez sur Voir tous les incidents.
  • Sur la page Incidents, recherchez l'incident que vous souhaitez mettre sous silence, cliquez sur  Autres options, puis sélectionnezMettre sous silence la condition associée.

Fermer des incidents

Vous pouvez laisser Monitoring fermer un incident ou, dans certains cas, le fermer vous-même :

  • Monitoring ferme automatiquement un incident dans les cas suivants :

    • Une observation indique que la condition n'est plus remplie.

    • Pour les conditions de seuil de métrique, lorsqu'aucune observation n'arrive pendant la durée de fermeture automatique de la règle d'alerte. Pour configurer la durée de la fermeture automatique, vous pouvez utiliser Cloud Console ou l'API Cloud Monitoring. Par défaut, la durée de fermeture automatique est de sept jours.

    • Pour les conditions d'absence de métrique, Monitoring ferme un incident lorsqu'aucune donnée n'arrive pendant 24 heures après l'expiration de la durée de fermeture automatique. Pour configurer la durée de la fermeture automatique, vous pouvez utiliser Cloud Console ou l'API Cloud Monitoring. Par défaut, la durée de fermeture automatique est de sept jours.

    Par exemple, une règle d'alerte a généré un incident car la latence de réponse HTTP était supérieure à deux secondes pendant dix minutes consécutives. Si la prochaine mesure de la latence de réponse HTTP est inférieure ou égale à deux secondes, alors l'incident est fermé. De même, si aucune donnée n'est reçue pendant sept jours, l'incident est fermé.

  • Vous pouvez fermer un incident une fois que les observations cessent de se produire.

    Si vous fermez un incident, puis que des données arrivent indiquant que la condition est remplie, un incident est créé.

    La fermeture d'un incident ne ferme pas les autres incidents ouverts pour la même règle d'alerte. Ce comportement est différent de la mise sous silence d'un incident, qui ferme tous les incidents ouverts pour la même condition.

Pour fermer un incident, procédez comme suit :

  1. Dans le volet Incidents du tableau de bord Alertes, cliquez sur Voir tous les incidents.
  2. Sur la page Incidents, recherchez l'incident que vous souhaitez fermer, puis effectuez l'une des opérations suivantes :

    • Cliquez sur  Plus d'options, puis sélectionnez Fermer cet incident.
    • Ouvrez la page de détails de l'incident, puis cliquez sur Fermer l'incident.

Si le message Unable to close incident with active conditions s'affiche, cela signifie que l'incident ne peut pas être fermé, car les données ont été reçues au cours de la période d'alerte la plus récente.

Si le message Unable to close incident. Please try again in a few minutes. s'affiche, cela signifie que l'incident n'a pas pu être fermé en raison d'une erreur interne.

Étape suivante