Incidents et événements

Un événement se produit en cas de non-respect des conditions d'une règle d'alerte. Lorsqu'un événement se produit, Cloud Monitoring ouvre un incident. Pour afficher la liste des incidents et des événements, procédez comme suit :

  1. Dans la barre d'outils Cloud Console, cliquez sur  Menu de navigation, puis sélectionnez Surveillance :

    Accéder à Monitoring

  2. Dans le volet de navigation "Surveillance", sélectionnez  Alertes.

Incidents

Dans la fenêtre Alertes, le volet Résumé indique le nombre d'incidents, tandis que le volet Incidents affiche les 10 incidents les plus récents. Chaque incident se trouve dans l'un des trois états suivants :

  •  Ouvert : L'ensemble des conditions de la règle est actuellement rempli ou aucune donnée n'indique que la condition n'est plus remplie. Si une règle contient plusieurs conditions, l'ouverture des incidents dépend de la manière dont ces conditions sont combinées. Pour plus d'informations, reportez-vous à la section Combiner des conditions.

  •  Confirmé : L'incident est ouvert et a été marqué manuellement comme confirmé. En général, cet état indique que l'incident est en cours d'examen.

  •  Fermé : le système a détecté que la condition n'est plus remplie ou lorsqu'il n'a pas détecté que la condition était remplie pendant une période de sept jours. Lorsqu'un incident est fermé en raison passage du temps, cet incident est considéré comme "arrivé à expiration". Il peut être étiqueté comme tel dans certaines notifications ou interfaces utilisateur afin de marquer la différence avec les cas où la condition n'est plus remplie.

Confirmer des incidents

Pour marquer un incident comme confirmé, procédez comme suit :

  • Dans le panneau Incidents du tableau de bord Alertes, cliquez sur Afficher tous les incidents. La fenêtre Incidents s'ouvre.
  • Pour confirmer un incident, effectuez l'une des opérations suivantes :

    • Pour l'incident que vous souhaitez confirmer, sélectionnez Plus d'options , puis sélectionnez Acknowledge (Confirmer)
    • Ouvrez la page d'informations de l'incident que vous souhaitez confirmer, puis cliquez sur Acknowledge incident (Confirmer l'incident).

Pour confirmer des incidents, vous devez disposer du rôle "Éditeur Monitoring" (roles/monitoring.editor). Pour en savoir plus, consultez la section Rôles prédéfinis de la page "Contrôle des accès".

Conditions de mise sous silence

Si vous mettez une condition sous silence, tous les incidents ouverts avec cette condition sont mis sous silence, et vous ne recevez pas de notification d'alerte lorsque la condition cesse d'être remplie. La mise sous silence d'une condition supprime l'incident de l'affichage des incidents actifs. Si vous enquêtez sur un incident, vous devez le confirmer au lieu de le mettre sous silence.

La mise sous silence d'un incident n'entraîne pas le rapprochement de la cause sous-jacente de l'incident. En d'autres termes, si la condition qui a généré l'incident continue à être respectée lors du prochain cycle d'alerte, l'incident est rouvert.

Pour désactiver une condition, procédez comme suit :

  • Dans le panneau Incidents du tableau de bord Alertes, cliquez sur Afficher tous les incidents. La fenêtre Incidents s'ouvre.
  • Pour confirmer l'incident que vous souhaitez confirmer, sélectionnez Plus d'options , puis sélectionnez Silence associated condition (Mettre sous silence la condition associée).

Fermer des incidents

Les incidents sont fermés automatiquement. Vous ne pouvez pas fermer un incident. Un incident est fermé lorsque le système détecte que la condition n'est plus remplie ou lorsque sept jours se sont écoulés sans que le système n'ait observé que la condition est toujours remplie.

Par exemple, supposons que vous ayez une règle d'alerte configurée pour générer un incident si la latence HTTP est supérieure à deux secondes pendant 10 minutes consécutives et qu'un incident a été créé. Si la prochaine mesure de la latence HTTP est inférieure ou égale à deux secondes, l'incident est fermé. De même, si aucune donnée n'est reçue pendant sept jours, l'incident est fermé.

Afficher et filtrer les incidents

Par défaut, la fenêtre Incidents affiche les incidents ouverts et confirmés. Pour afficher les incidents fermés, cliquez sur Afficher les incidents fermés.

Pour contrôler les incidents que vous voyez, ajoutez des filtres. Pour ajouter un filtre, procédez comme suit :

  1. Cliquez sur  Filtrer le tableau, puis sélectionnez un attribut de filtrage :

    • État
    • Nom de la règle d'alerte
    • Type de métrique
    • Type de ressource
  2. En fonction de l'attribut sélectionné, un second menu s'ouvre et affiche une liste partielle d'options. Si vous saisissez une valeur dans la barre de filtre, la liste d'options est remplacée par celles contenant le texte que vous avez saisi.

    Par exemple, pour filtrer sur la métrique container.googleapis.com/container/cpu/usage_time, sélectionnez l'attribut Métrique. Si vous saisissez usage_time, les options suivantes peuvent s'afficher dans le menu secondaire :

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time

Si vous ajoutez plusieurs filtres, un incident ne s'affiche que s'il répond à tous les filtres.

Inspecter des événements

Le volet Events (Événements) du tableau de bord Alertes affiche les événements les plus récents et inclut un indicateur graphique :

Partie d'une liste d'événements.

  • Pour afficher les détails d'un événement, cliquez sur son nom. La fenêtre de détails indique le moment de l'ouverture de l'incident, sa durée et son état.

  • Pour afficher tous les événements, cliquez sur Voir tous les événements. La fenêtre Événements s'ouvre. Tous les événements sont répertoriés.

    • Pour parcourir les événements, utilisez les boutons Suivant  et Précédent .
    • Pour filtrer les événements, cliquez sur Show filters (Afficher les filtres). Utilisez la boîte de dialogue de filtrage pour sélectionner les types d'activités, les ressources et le nom. Si vous conservez la valeur par défaut d'un champ, celui-ci n'est pas pris en compte.

      Affichage de la boîte de dialogue de filtrage des événements.

      Par exemple, pour afficher toutes les activités qui sont ouvertes, sélectionnez Ouvert dans le menu Activity types (Types d'activités) et conservez la valeur par défaut des autres champs.

Le tableau suivant décrit les indicateurs graphiques :

Indicateur Signification
Icône du message de maintenance. Message de maintenance.
Message d'ajout au compte Cloud. Message d'événement Cloud.
Message de sauvegarde, de configuration ou de maintenance de la base de données. Message de sauvegarde, de configuration ou de maintenance de la base de données.
Message d'ouverture, de fermeture ou de confirmation d'un incident pour non-respect des conditions. Message d'ouverture (rouge), de fermeture (vert) ou de confirmation (bleu) d'un incident pour non-respect des conditions.
Migration ou préemption d'une instance, ou message Kubernetes. Message indiquant la migration ou la préemption d'une instance. Message indiquant l'échec de la configuration de Kubernetes, qu'il n'est pas prêt ou qu'il y a une limitation de l'espace disque.

Étape suivante

  • Pour créer et gérer des règles d'alerte avec l'API Cloud Monitoring ou depuis la ligne de commande, consultez la page Utiliser l'API.
  • Pour un traitement détaillé des concepts de règles d'alerte, consultez la page Les règles d'alerte en profondeur.