Façonnez les opérations logicielles de demain et faites entendre votre voix en répondant à l'enquête 2021 sur l'état du DevOps.

Incidents pour les alertes basées sur les métriques

Un incident est un enregistrement du déclencheur d'une règle d'alerte. Cloud Monitoring ouvre un incident lorsqu'une condition d'une règle d'alerte est remplie.

Cette page explique comment afficher, examiner et gérer les incidents pour les règles d'alerte basées sur les métriques.

Rechercher des incidents

Pour afficher la liste des incidents, procédez comme suit:

  1. Dans la barre d'outils Cloud Console, cliquez sur  Menu de navigation, puis sélectionnez Surveillance :

    Accéder à Monitoring

  2. Dans le volet de navigation Monitoring, sélectionnez  Alertes:

    • Le volet Résumé répertorie le nombre d'incidents ouverts.
    • Le volet Incidents affiche les incidents les plus récents. Pour masquer les incidents fermés dans le tableau, cliquez sur Masquer les incidents fermés.

Rechercher des incidents plus anciens

Le volet Incidents de la page Alertes affiche les incidents ouverts les plus récents. Pour localiser les incidents plus anciens, effectuez l'une des opérations suivantes:

  • Pour parcourir les entrées de la sectionIncidents tableau, cliquez sur  Plus récents ou Plus ancienne(s) s'affiche en haut de l'écran.

  • Pour accéder à la page Incidents, cliquez sur Voir tous les incidents. Sur la page Incidents, vous pouvez effectuer les opérations suivantes:

    • Masquer les incidents fermés: Pour ne répertorier que les incidents ouverts dans le tableau, cliquez sur Masquer les incidents fermés.
    • Filtrer les incidents: pour en savoir plus sur l'ajout de filtres, consultez la section Filtrer les incidents.
    • Confirmer ou couper un incident : Pour accéder à ces options, cliquez sur Autres options dans la ligne des incidents et sélectionnez une option dans le menu. Pour plus d'informations, consultez la section Gérer les incidents.

Filtrer les incidents

Lorsque vous saisissez une valeur dans la barre de filtre, seuls les incidents correspondant au filtre sont répertoriés dans le tableau Incidents. Si vous ajoutez plusieurs filtres, un incident ne s'affiche que s'il répond à tous les filtres.

Pour ajouter un filtre à la table des incidents, procédez comme suit:

  1. Sur la page Incidents, cliquez sur  Filtrer la table, puis sélectionnez une propriété de filtre. Les propriétés de filtrage incluent tous les éléments suivants:

    • État de l'incident
    • Nom de la règle d'alerte
    • Date d'ouverture ou de fermeture de l'incident
    • Type de métrique
    • Type de ressource
  2. Sélectionnez une valeur dans le menu secondaire ou saisissez une valeur dans la barre de filtre.

    Par exemple, si vous sélectionnez Type de métrique et saisissez usage_time, seules les options suivantes peuvent s'afficher dans le menu secondaire:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Examiner les incidents

Une fois que vous avez trouvé l'incident que vous souhaitez examiner, accédez à la page Détails de l'incident correspondant. Pour afficher les détails, cliquez sur le résumé des incidents dans le tableau des incidents sur la page Alertes ou sur la page Incidents.

Si vous avez reçu une notification qui inclut un lien vers l'incident, cliquez sur ce lien pour afficher les détails de l'incident.

La capture d'écran suivante montre la page de détails d'un incident:

Cette page fournit des informations récapitulatives et des outils d'investigation pour un incident.

La page Détails de l'incident fournit les informations suivantes:

  • Les informations d'état, y compris:

    • Nom: nom de la règle d'alerte à l'origine de cet incident.
    • État: état de l'incident: ouvert, confirmé ou fermé.
    • Duration: durée de l'ouverture de l'incident.
  • Informations sur la règle d'alerte à l'origine de l'incident:

    • Condition: condition de la règle d'alerte à l'origine de l'incident.
    • Message: brève explication de la cause basée sur la configuration de la condition dans la règle d'alerte. Ce volet est toujours renseigné.
    • Documentation: documentation (facultative) des notifications fournies lors de la création de la règle d'alerte. Ces informations peuvent inclure une description de ce que la règle d'alerte surveille et des conseils pour l'atténuer. Si vous avez ignoré ce champ lors de la création de la règle d'alerte, le texte de ce volet est "Aucune documentation configurée".
  • Labels (Libellés) : libellés et valeurs de la ressource surveillée et de la métrique de la série temporelle ayant déclenché la règle d'alerte. Ces informations peuvent vous aider à identifier la ressource surveillée spécifique qui a provoqué l'incident.

La page Détails de l'incident fournit également des outils permettant d'examiner l'incident:

  • Chronologie de l'incident: affiche deux représentations visuelles de l'incident:

    • Une barre rouge au-dessus d'un axe des temps représente l'incident. la longueur et la position de la barre reflètent la durée de l'incident.
    • Un graphique indique les données de séries temporelles et le seuil utilisés par la règle d'alerte à l'origine de l'incident. L'incident a été ouvert lorsqu'une série temporelle a rempli une condition de la règle d'alerte.

    L'axe de temps indique la durée de l'incident avec deux points étiquetés. La position de ces points sur l'axe de temps détermine la plage de données affichée sur le graphique qui présente la chronologie de l'incident. Par défaut, un point est positionné à l'ouverture de l'incident et un point à la fin de l'incident, ou à l'heure actuelle si l'incident est toujours ouvert.

    Vous pouvez modifier la période sur la chronologie des incidents et le graphique:

    • Pour modifier la période affichée sur le graphique, faites glisser l'un des points le long de l'axe de la durée. En utilisant cette technique, vous pouvez vous concentrer sur des intervalles spécifiques, par exemple au début ou à la fin de l'incident.

      Lorsque vous modifiez le graphique en faisant glisser les points de l'axe, vous définissez une valeur personnalisée dans le menu Période et désactive le menu. Pour activer le menu Période, cliquez sur Réinitialiser.

    • Pour modifier la période affichée sur la chronologie, sélectionnez-en une dans le menu Période.

  • Liens vers d'autres outils de dépannage La configuration de votre projet, de votre règle d'alerte et de l'âge de l'incident détermine les liens disponibles.
    • Pour afficher la page des détails de la règle d'alerte, cliquez sur Afficher la règle.
    • Pour modifier la définition de la règle d'alerte, cliquez sur Modifier la règle.
    • Pour accéder à un tableau de bord contenant les informations sur les performances de la ressource, cliquez sur Afficher les détails de la ressource.
    • Pour afficher les entrées de journal associées dans l'explorateur de journaux, cliquez sur Afficher les journaux. Pour en savoir plus, consultez la page Utiliser l'explorateur de journaux.
    • Pour étudier les données du graphique, cliquez sur Afficher dans l'explorateur de métriques.
  • Annotations: fournit un journal de vos résultats, résultats, suggestions ou autres commentaires de l'enquête concernant l'incident.
    • Pour ajouter une annotation, saisissez du texte dans le champ correspondant, puis cliquez sur Ajouter un commentaire.
    • Pour supprimer le commentaire, cliquez sur Annuler.

Vous pouvez également confirmer ou désactiver les incidents depuis la page Détails sur l'incident. Pour plus d'informations, consultez la section Gérer les incidents.

Gérer les incidents

Les incidents sont associés à l'un des états suivants:

  • Ouvert : L'ensemble de conditions de la règle est rempli ou aucune donnée n'est disponible pour indiquer que la condition n'est plus remplie. Si une règle contient plusieurs conditions, l'ouverture des incidents dépend de la manière dont ces conditions sont combinées. Pour plus d'informations, reportez-vous à la section Combiner des conditions.

  •  Confirmé : L'incident est ouvert et a été marqué comme confirmé manuellement. En général, cet état indique que l'incident est en cours d'examen.

  • Fermée :

Lorsque vous configurez une règle d'alerte, assurez-vous que l'état stable fournit un signal lorsque tout est correct. Cela est nécessaire pour s'assurer que l'état sans erreur peut être identifié et, si un incident est ouvert, qu'il doit être fermé. Si aucun signal n'indique qu'une condition d'erreur s'est arrêtée, après l'ouverture d'un incident, elle reste ouverte pendant sept jours après le déclenchement de la règle.

Par exemple, si vous créez une règle qui vous avertit lorsque le nombre d'erreurs est supérieur à 0, assurez-vous qu'il génère un nombre de 0 erreur en l'absence d'erreurs. Si la règle renvoie la valeur null ou vide dans l'état sans erreur, aucun signal n'indique l'arrêt des erreurs. Dans certains cas, le langage MQL (Monitoring Query Language) vous permet de spécifier une valeur par défaut utilisée si aucune valeur mesurée n'est disponible. Pour obtenir un exemple, consultez la section Utiliser des proportions.

Pour gérer les incidents, votre rôle doit inclure l'autorisation monitoring.alertPolicy.create ou monitoring.alertPolicy.update. Ces autorisations sont incluses dans le rôle Éditeur de surveillance, roles/monitoring.editor. Pour obtenir des informations détaillées sur les rôles et les autorisations, consultez la section Rôles prédéfinis.

Confirmer des incidents

Nous vous recommandons de marquer un incident comme confirmé lorsque vous commencez à examiner les causes de l'incident.

Pour marquer un incident comme confirmé, procédez comme suit :

  • Dans le volet Incidents du tableau de bord Alertes, cliquez sur Voir tous les incidents.
  • Sur la page Incidents, recherchez l'incident que vous souhaitez accepter, puis effectuez l'une des opérations suivantes:

    • Cliquez sur  Autres options, puis sélectionnez Confirmer.
    • Ouvrez la page de détails de l'incident, puis cliquez sur Acknowledge incident (Confirmer l'incident).

Désactivation des incidents

Pour fermer tous les incidents ouverts associés à une condition de règle d'alerte, coupez le son d'un incident associé à cette condition. Par exemple, supposons qu'une règle d'alerte contienne une condition qui surveille 10 séries temporelles. La condition est remplie si une série temporelle dépasse un seuil d'une. Si cinq des séries temporelles dépassent le seuil, cinq incidents sont créés. Si vous désactivez l'un de ces incidents, les cinq incidents seront fermés.

La désactivation d'un incident ne résout pas le problème sous-jacent de celui-ci. En d'autres termes, si une condition pour cette règle d'alerte est remplie lors du prochain cycle d'alerte, un incident pour cette condition est ouvert.

Lorsqu'une règle d'alerte contient plusieurs conditions, la suppression de l'incident pour une condition ne ferme pas les incidents ouverts pour les autres conditions.

Pour désactiver un incident, procédez comme suit:

  • Dans le volet Incidents du tableau de bord Alertes, cliquez sur Voir tous les incidents.
  • Sur la page Incidents, recherchez l'incident que vous souhaitez désactiver, cliquez sur  Plus d'options, puis sélectionnez Couper le son associé condition.

Fermer des incidents

Les incidents sont fermés automatiquement. vous ne pouvez pas fermer un incident. Un incident est fermé lorsque le système détecte que la condition n'est plus remplie ou lorsque sept jours se sont écoulés sans que le système n'ait observé que la condition est toujours remplie.

Par exemple, supposons que vous ayez une règle d'alerte configurée pour générer un incident si la latence HTTP de réponse est supérieure à deux secondes pendant 10 minutes consécutives et qu'un incident a été créé. Si la prochaine mesure de la latence HTTP de la réponse est inférieure ou égale à deux secondes, l'incident est fermé. De même, si aucune donnée n'est reçue pendant sept jours, l'incident est fermé.

Étape suivante