Gérer les règles d'alerte basées sur des métriques

Ce document explique comment créer et gérer une règle d'alerte en fonction de métriques à l'aide de Google Cloud Console Ce contenu ne concerne pas les règles d'alerte basées sur les journaux. Pour en savoir plus sur les règles d'alerte basées sur les journaux, qui vous envoient une notification lorsqu'un message particulier s'affiche dans les journaux, consultez la page Surveiller vos journaux.

Une règle d'alerte décrit un ensemble de conditions que vous souhaitez surveiller. Ces conditions peuvent être liées à l'état d'une application, à la valeur d'une métrique système ou à la consommation des ressources. Par exemple, vous pouvez choisir une règle qui surveille un test de disponibilité ou qui surveille l'utilisation de l'API Cloud Monitoring. Une règle d'alerte vous permet également de spécifier la manière dont vous souhaitez recevoir une notification lorsque les conditions de la règle sont remplies, ainsi que la documentation à inclure dans cette notification.

Vous pouvez également créer et gérer des règles d'alerte à l'aide de l'API Cloud Monitoring. Pour plus d'informations sur cette approche, consultez la page Gérer des règles d'alerte à l'aide de l'API. Pour afficher les règles représentées au format JSON, consultez la page Exemples de règles.

Avant de commencer

Avant de créer des règles d'alerte, vous devez vous familiariser avec la terminologie et les concepts généraux utilisés avec les règles d'alerte. Pour en savoir plus sur les composants d'une règle, le concept d'incident, ainsi que sur la tarification et les limites, consultez la page Présentation des alertes.

Créer une règle d'alerte

Cloud Monitoring actualise l'interface que vous utilisez pour créer une règle d'alerte. Ce document fournit des informations sur l'ancienne interface et sur l'interface bêta. Si vous choisissez d'essayer l'interface bêta, puis souhaitez utiliser l'ancienne interface, cliquez sur Revenir à l'ancienne interface utilisateur.

Ancienne interface

Pour créer une règle d'alerte, procédez comme suit :

  1. Dans Cloud Console, sélectionnez Surveillance :

    Accéder à Monitoring

  2. Sélectionnez Alertes.

  3. Cliquez sur Create Policy (Créer une règle) pour afficher la page Créer une règle d'alerte :

    La boîte de dialogue "Create New Alerting Policy" (Créer une règle d'alerte) s'affiche.

    1. Cliquez sur Add condition (Ajouter une condition), puis remplissez la boîte de dialogue. Pour plus d'informations sur les champs d'une condition, consultez la page Spécifier des conditions.

      Une condition décrit à la fois la ressource surveillée, la métrique appliquée à cette ressource et le moment où la condition est remplie. Une règle d'alerte doit comporter au moins une condition, et pas plus de six conditions. Si une règle d'alerte ne comporte qu'une condition et que celle-ci est remplie, alors un incident est créé. Si une règle d'alerte comporte plusieurs conditions, vous devez spécifier comment ces conditions se combinent entre elles. Pour plus d'informations, consultez la section Règles comportant plusieurs conditions.

    2. Cliquez sur Next (Suivant) pour accéder à la section des notifications.

    3. Pour être informé lorsqu'un incident est créé, ajoutez un canal de notification à votre règle d'alerte. Vous pouvez ajouter plusieurs canaux de notification. Pour plus de détails sur vos choix de canaux de notification, consultez la page Options de notification.

      Pour ajouter un canal de notification, cliquez sur Notification channels (Canaux de notification). Dans la boîte de dialogue, sélectionnez un ou plusieurs canaux de notification dans le menu, puis cliquez sur OK.

      Boîte de dialogue de notification affichant les boutons d'actualisation et de gestion des canaux.

      Si un canal de notification que vous souhaitez ajouter n'est pas répertorié, cliquez sur Gérer les canaux de notification. La page Canaux de notification s'affiche dans un nouvel onglet du navigateur. Sur cette page, vous pouvez mettre à jour les canaux de notification configurés. Une fois vos mises à jour effectuées, revenez à l'onglet d'origine, cliquez sur Actualiser , puis sélectionnez les canaux de notification à ajouter à la règle d'alerte. Pour en savoir plus, consultez la section Créer un canal à la demande.

    4. (Facultatif) Si vous souhaitez recevoir une notification lors de l'ouverture et de la fermeture d'un incident, cochez la case Notifier lors de la fermeture de l'incident. Par défaut, les notifications ne sont envoyées que lorsqu'un incident est ouvert.

      Affichage du bouton de notification en cas de fermeture d'incident.

    5. (Facultatif) Si le champ Durée de fermeture automatique des incidents est affiché, définissez cette valeur sur la durée pendant laquelle Monitoring doit attendre avant de fermer les incidents lorsque les observations cessent de se produire. (Installation de Python groupée). La valeur par défaut de ce champ est de sept jours.

      Par exemple, supposons que vous disposiez d'une alerte avec une condition de seuil de métrique qui surveille une machine virtuelle (VM). Si vous désactivez la VM alors qu'un incident est ouvert, Monitoring attend par défaut sept jours avant de le fermer.

    6. Cliquez sur Next (Suivant) pour passer à la section de documentation.

    7. Cliquez sur Nom, puis saisissez un nom de règle. Ce nom est inclus dans les notifications et affiché sur la page Règles.

    8. (Facultatif) Spécifiez la documentation à inclure dans les notifications. Pour mettre en forme votre documentation, vous pouvez utiliser Markdown. Pour extraire des informations de la règle elle-même afin de personnaliser le contenu de votre documentation, vous pouvez utiliser des variables. Pour plus d'informations sur la mise en forme et la personnalisation du contenu de ce champ, consultez la section Utiliser Markdown et les variables dans les modèles de documentation.

      Par exemple, la documentation peut inclure un titre tel que Addressing High CPU Usage (Résoudre l'utilisation élevée du processeur) et des informations permettant d'identifier le projet :

      ## Addressing High CPU Usage
      
      This note contains information about high CPU Usage.
      
      You can include variables in the documentation. For example:
      
      This alert originated from the project ${project}, using
      the variable $${project}.
      

      La valeur ne remplace la variable que dans les notifications. Le volet Prévisualiser au format Markdown, et les autres emplacements dans Cloud Console qui affichent la documentation, ne reflètent que le format Markdown :

      Exemple de rédaction d'une note de documentation avec Markdown.

      Vous pouvez également ajouter des tags spécifiques au canal pour contrôler les notifications. Pour plus d'informations, consultez la section Utiliser des contrôles de canal.

  4. Cliquez sur Enregistrer.

Interface bêta

Pour créer une règle d'alerte, procédez comme suit :

  1. Dans Cloud Console, sélectionnez Surveillance :

    Accéder à Monitoring

  2. Dans le volet de navigation Cloud Monitoring, sélectionnez Alertes, puis cliquez sur Créer une règle.

  3. À l'étape Nouvelle condition de la page Créer une règle d'alerte, configurez la condition de règle d'alerte.

  4. (Facultatif) Pour créer une règle d'alerte à plusieurs conditions, procédez comme suit :

    1. Pour chaque condition supplémentaire, cliquez sur Ajouter une condition, puis configurez cette condition.
    2. Après avoir ajouté toutes les conditions, sélectionnez la manière dont ces conditions sont combinées à l'étape Déclencheur multicondition. Pour plus d'informations, consultez la section Règles comportant plusieurs conditions.
  5. (Facultatif) Pour recevoir une notification lorsque la condition d'une règle d'alerte est remplie, assurez-vous d'activer l'option Utiliser le canal de notification à l'étape Notifications et nom, puis procédez comme suit :

    1. Cliquez sur le texte Notification channels (Canaux de notification) pour activer un menu. Sélectionnez un ou plusieurs canaux de notification dans ce menu.

      Si un canal de notification que vous souhaitez ajouter n'est pas présenté, consultez la section Créer un canal à la demande.

      Pour plus de détails sur vos choix de canaux de notification, consultez la page Options de notification.

    2. Pour recevoir une notification lors de la résolution d'un incident, sélectionnez Notifier en cas de fermeture d'incident.

      Par défaut, si vous créez une règle d'alerte avec Google Cloud Console, une notification n'est envoyée que lors de la création d'un incident.

    Vous pouvez modifier les canaux de notification d'une règle d'alerte en modifiant cette règle.

  6. (Facultatif) Si le champ Durée de fermeture automatique des incidents est affiché, définissez cette valeur sur la durée pendant laquelle Monitoring doit attendre avant de fermer les incidents lorsque les observations cessent de se produire. (Installation de Python groupée). La valeur par défaut de ce champ est de sept jours.

    Par exemple, supposons que vous disposiez d'une alerte avec une condition de seuil de métrique qui surveille une machine virtuelle (VM). Si vous désactivez la VM alors qu'un incident est ouvert, Monitoring attend par défaut sept jours avant de fermer l'incident.

  7. (Facultatif) Pour inclure de la documentation personnalisée avec une notification, ajoutez ce contenu à la section Documentation de l'étape Notifications et nom.

    Pour mettre en forme votre documentation, vous pouvez utiliser Markdown. Pour extraire des informations de la règle elle-même afin de personnaliser le contenu de votre documentation, vous pouvez utiliser des variables. Par exemple, la documentation peut inclure un titre tel que Addressing High CPU Usage (Résoudre l'utilisation élevée du processeur) et des informations permettant d'identifier le projet :

    ## Addressing High CPU Usage
    
    This note contains information about high CPU Usage.
    
    You can include variables in the documentation. For example:
    
    This alert originated from the project ${project}, using
    the variable $${project}.
    

    Lors de la création des notifications, Monitoring remplace les variables par leurs valeurs. Les valeurs remplacent les variables uniquement dans les notifications. Le volet d'aperçu et les autres emplacements dans Cloud Console n'affichent que le format Markdown :

    Exemple de rédaction d'une note de documentation avec Markdown.

    Pour en savoir plus sur Markdown et les variables, consultez la page Utiliser Markdown et les variables dans les modèles de documentation.

    Pour en savoir plus sur l'inclusion de tags spécifiques au canal pour contrôler les notifications, consultez la page Utiliser des contrôles de canal.

    Vous pouvez modifier la documentation d'une règle d'alerte en modifiant cette règle.

  8. (Facultatif) Pour remplacer le nom de la règle d'alerte Nouvelle alerte par un nom plus significatif, accédez à l'étape Notifications et nom et mettez à jour le nom de la règle.

  9. Cliquez sur Create (Créer).

Configurer une condition

Cette section explique comment configurer une condition à l'aide de l'interface bêta. Si vous utilisez l'ancienne interface, consultez la section Spécifier des conditions.

Pour configurer une condition, procédez comme suit :

  1. Sélectionnez la manière dont vous souhaitez spécifier la série temporelle à surveiller :

    • Mode de base

      Utilisez le mode de base lorsque vous souhaitez configurer une condition qui surveille une métrique pour une ressource spécifique et que vous ne souhaitez pas utiliser MQL.

      Si vous sélectionnez le mode de base, vous pouvez convertir vos sélections en MQL ou en mode de filtrage direct.

    • Mode MQL

      Utilisez le mode MQL lorsque vous souhaitez utiliser la syntaxe MQL pour décrire la condition ou pour surveiller un ratio de métriques.

      Si vous utilisez le mode MQL, votre requête ne peut pas être convertie en mode de base ou en mode de filtrage direct.

    • Mode de filtrage direct

      Utilisez le mode de filtrage direct lorsque vous souhaitez surveiller l'un des éléments suivants :

      • Un objectif de niveau de service (SLO)
      • Le nombre de processus s'exécutant sur des machines virtuelles (VM).
      • Une métrique personnalisée pour laquelle vous ne disposez pas encore de données

      Si vous utilisez le mode de filtrage direct, votre requête ne peut pas être convertie en mode de base ou en requête MQL.

  2. (Facultatif) Si vous utilisez le mode de base ou le mode de filtrage direct, spécifiez la manière dont les séries temporelles sélectionnées sont traitées et combinées à l'aide des champs Transformer des données.

  3. Configurez le déclencheur de condition.

Mode de base

Pour sélectionner les séries temporelles à surveiller à l'aide du mode de base, procédez comme suit :

  1. Cliquez sur Sélectionner une métrique sur la page Créer une règle d'alerte, faites défiler la page jusqu'à la ressource, puis parcourez les menus. Après avoir sélectionné une métrique, cliquez sur Appliquer.

    Pour limiter le menu aux métriques qui contiennent une chaîne spécifique, saisissez cette chaîne dans la barre de filtre. Par exemple, si vous saisissez CPU, seules les métriques dont le nom contient CPU sont affichées. Un test non sensible à la casse est effectué pour déterminer si une métrique est répertoriée dans le menu.

    Pour modifier la métrique ou la ressource sélectionnées, développez le menu Sélectionner une métrique, puis cliquez sur Réinitialiser ou parcourez les menus pour effectuer une autre sélection.

  2. (Facultatif) Pour surveiller uniquement certaines des séries temporelles affichées dans le graphique, ajoutez un filtre. Dans la boîte de dialogue de filtrage, vous utilisez le champ Filtre pour sélectionner le libellé à filtrer. Par exemple, vous pouvez filtrer par groupe de ressources, par nom, par libellé de ressource, par zone et par libellé de métrique.

    Par exemple, le filtre zone =~ ^us.*.a$ utilise une expression régulière correspondant à toutes les données de séries temporelles dont le nom de zone commence par us et se terine par a. Pour en savoir plus, consultez la page Filtrer les données sélectionnées.

Si vous cliquez sur MQL dans la barre d'outils après avoir effectué des sélections, l'éditeur de requête est ouvert et affiche une requête contenant vos sélections. Si vous modifiez la requête existante, puis revenez au mode de base, vos modifications sont supprimées.

Mode MQL

Pour configurer une condition à l'aide du langage MQL, procédez comme suit :

  1. Cliquez sur MQL dans la barre d'outils de la page Créer une alerte personnalisée, puis saisissez la requête de la condition.

    Votre requête doit se terminer par l'une des opérations suivantes :

    • Opération condition pour les alertes de seuil
    • Opération absent_for pour les alertes d'absence

    Pour en savoir plus, consultez la page Règles d'alerte avec MQL.

  2. Cliquez sur Suivant, puis sur Configurer le déclencheur de condition.

Pour revenir au mode de base, cliquez sur Requête de base dans la barre d'outils de la page Créer une alerte personnalisée.

Si vous créez une requête ou modifiez la requête existante, puis revenez au mode de base, vos modifications sont supprimées.

Mode de filtrage direct

Pour sélectionner les séries temporelles à surveiller à l'aide du mode de filtrage direct, procédez comme suit :

  1. Cliquez sur ?. dans l'en-tête de la section Sélectionner une métrique, puis sélectionnez Mode de filtrage direct dans l'info-bulle.

  2. Saisissez un filtre Monitoring.

    Par exemple, pour compter le nombre de processus exécutés sur des instances de VM Compute Engine dont le nom inclut nginx, saisissez la commande suivante :

    select_process_count("monitoring.regex.full_match(\".*nginx.*\")")
    resource.type="gce_instance"
    

    Pour en savoir plus sur la syntaxe, consultez les ressources suivantes :

Pour revenir au mode de base, cliquez sur ? dans l'en-tête de la section Sélectionner une métrique, puis sélectionnez Mode de base.

Si vous sélectionnez le mode de base, puis passez en mode de filtrage direct, vous pouvez afficher le filtre de surveillance. Vous pouvez revenir au mode de base si vous ne modifiez pas le filtre de surveillance. Si vous revenez au mode de base après avoir créé ou modifié un filtre de surveillance, vos modifications risquent de ne pas être conservées.

Si vous utilisez le mode de filtrage direct pour sélectionner la série temporelle à surveiller et que vous passez ensuite en mode MQL, vos modifications ne sont pas conservées.

Transformer les données

Cette section ne s'applique qu'au mode de base et au mode de filtrage direct. Elle ne s'applique pas au mode MQL.

Pour configurer l'alignement de chaque série temporelle et leur combinaison, procédez comme suit :

  1. (Facultatif) Pour modifier l'alignement des points d'une série temporelle sur des intervalles de temps fixes, définissez la Fenêtre glissante et la Fonction de fenêtre glissante dans la section Transformation des données.

    Ces champs indiquent comment les points enregistrés dans une fenêtre sont combinés. Par exemple, si la fenêtre est de 15 minutes et que la fonction de fenêtre est max, le point aligné est la valeur maximale de tous les échantillons enregistrés au cours des 15 dernières minutes.

    Pour plus d'informations, consultez la section Aligner les séries temporelles.

  2. (Facultatif) Pour combiner des séries temporelles, dans la section Toutes les séries temporelles, cliquez sur Afficher plus, puis renseignez la boîte de dialogue. Par défaut, les séries temporelles ne sont pas combinées.

    Pour créer une seule série temporelle, procédez comme suit :

    1. Définissez le champ Agrégation de séries temporelles sur une valeur autre que none. Par exemple, si vous sélectionnez mean, chaque point de la série temporelle affichée correspond à la moyenne des points de la série temporelle individuelle.

    2. Vérifiez que le champ Grouper les séries temporelles par est vide.

    Pour regrouper des séries temporelles, procédez comme suit :

    1. Définissez le champ Agrégation de séries temporelles sur une valeur autre que none.

      Par exemple, si vous regroupez les séries temporelles par zone, puis que vous définissez le champ d'agrégation sur mean, il existe une série temporelle pour chaque zone.

    2. Dans le champ Grouper les séries temporelles par, sélectionnez un ou plusieurs libellés de regroupement.

    Si plusieurs séries temporelles s'affichent après avoir suivi les étapes précédentes, vous pouvez les combiner en une seule série temporelle à l'aide des champs Transformation de données secondaires.

    Pour en savoir plus, consultez la section Combiner les séries temporelles.

Déclencheur de condition

Pour configurer les critères selon lesquels une condition est remplie, accédez à la page Configurer le déclencheur d'alerte, puis procédez comme suit :

  1. Si le champ Type de condition s'affiche, sélectionnez le type de condition.

    • Pour recevoir une notification lorsque les données de métriques cessent d'arriver, sélectionnez Absence de métrique.

    • Pour recevoir une notification en fonction de la valeur d'une métrique, sélectionnez Seuil.

  2. Pour spécifier la manière dont chaque série temporelle doit satisfaire les critères d'une condition qui doit être remplie, sélectionnez une valeur dans le menu Déclencheur d'alerte. Ce menu vous permet de spécifier le sous-ensemble de séries temporelles devant satisfaire les critères du déclencheur de la condition qui doit être remplie.

  3. Renseignez le champ spécifique à la condition :

    • Condition d'absence de métrique

      Saisissez le délai d'attente de la règle d'alerte pour vous avertir qu'aucune donnée de métrique n'est reçue dans le champ Déclencher l'alerte lorsque des données sont absentes pendant cette durée.

    • Condition de seuil

      Saisissez la manière dont la valeur de la métrique répond aux critères de la condition dans les champs Position du seuil ,Valeur du seuil etSeuil de durée dépassé. Par exemple, si vous définissez ces valeurs sur Au-dessus du seuil, 0.3 et 5 minutes, une série temporelle remplit la condition si chaque échantillon dans un intervalle de cinq minutes est supérieur à 0,3.

      Saisissez la durée pendant laquelle les mesures doivent répondre aux critères de la condition avant que l'alerte ne génère un incident dans la fenêtre du nouveau test. Si vous sélectionnez la valeur la plus récente, une seule mesure peut entraîner une notification. Pour obtenir des informations conceptuelles et un exemple, consultez la section Période d'alignement et durée.

JSON pour une règle d'alerte

Pour afficher ou télécharger la représentation JSON d'une règle d'alerte, procédez comme suit :

  1. Dans Cloud Console, sélectionnez Surveillance :

    Accéder à Monitoring

  2. Sélectionnez Alertes, recherchez la règle que vous souhaitez afficher, puis ouvrez la page Détails des règles.

  3. Effectuez l'une des opérations suivantes :

    • Pour télécharger le fichier JSON sur votre système local, cliquez sur JSON.

    • Pour afficher le fichier JSON, assurez-vous d'utiliser l'interface bêta, cliquez sur Modifier, puis sur Afficher le code.

      Si Afficher le code n'apparaît pas, cela signifie que vous utilisez l'ancienne interface ou que l'option est masquée sous Plus d'options.

Ajouter une règle d'alerte à un tableau de bord

Lorsqu'une règle d'alerte contient une condition, vous pouvez afficher un résumé de cette règle d'alerte sur un tableau de bord personnalisé. Le résumé inclut les séries temporelles surveillées par la règle d'alerte, le seuil et le nombre d'incidents ouverts.

Pour afficher le résumé d'une règle d'alerte sur un tableau de bord personnalisé, procédez comme suit :

  1. Dans Cloud Console, sélectionnez Surveillance :

    Accéder à Monitoring

  2. Sélectionnez Tableaux de bord et ouvrez le tableau de bord personnalisé que vous souhaitez modifier.

  3. Si Modifications ne s'affiche pas, cliquez sur Afficher et sélectionnez Passer en mode Édition.

  4. Sélectionnez Graphique d'alerte dans la bibliothèque de widgets ou cliquez sur Ajouter un graphique, puis sélectionnez Graphique d'alerte dans le menu.

  5. Dans le volet de configuration du graphique d'alerte, sélectionnez une règle d'alerte dans le menu Règle d'alerte. Seules les règles d'alerte à une seule condition peuvent être sélectionnées dans le menu Règle d'alerte.

La capture d'écran suivante illustre un graphique d'alerte :

Exemple de graphique d'alerte

Dans cet exemple, la règle d'alerte surveille l'utilisation du processeur de deux machines virtuelles différentes. La ligne rouge en pointillé affiche le seuil de condition, qui est défini sur 50 %. La puce verte portant le libellé No incidents indique qu'aucun incident n'est ouvert pour la règle d'alerte. Si vous placez votre pointeur sur la puce qui indique le nombre d'incidents ouverts, une boîte de dialogue s'ouvre et renvoie vers la règle d'alerte sous-jacente.

Pour en savoir plus, consultez la page Utiliser des tableaux de bord et des graphiques.

Gérer les règles

Pour répertorier toutes les règles d'alerte, procédez comme suit :

  1. Dans Cloud Console, sélectionnez Surveillance :

    Accéder à Monitoring

  2. Sélectionnez Alertes.

  3. Une liste partielle des règles s'affiche dans le volet Policies (Règles). Pour afficher toutes les règles et activer le filtrage, cliquez sur See all policies (Voir toutes les règles).

Pour afficher les détails d'une règle d'alerte, cliquez sur son nom.

Pour restreindre les règles d'alerte répertoriées, ajoutez des filtres. Chaque filtre est composé d'un nom et d'une valeur. Vous pouvez définir la valeur comme étant une correspondance exacte ou une correspondance partielle d'un nom de règle. Les filtres n'effectuent pas de comparaisons sensibles à la casse. Si vous avez plusieurs filtres, un opérateur logique AND rejoint les filtres, sauf si vous insérez un filtre OR. La capture d'écran suivante répertorie toutes les règles d'alerte correspondant à test ou My Uptime Check Alert Policy :

Exemple de présentation des alertes avec des filtres.

Sur la page Policies (Règles), vous pouvez modifier, supprimer, copier, activer ou désactiver les règles d'alerte :

  • Pour modifier ou copier une règle, cliquez sur Plus d'options , puis sélectionnez l'option correspondante. La modification et la copie d'une règle sont des opérations semblables à la création d'une règle d'alerte. Vous pouvez modifier et parfois supprimer les valeurs des champs. Lorsque vous avez terminé, cliquez sur Enregistrer.

  • Pour supprimer une règle, cliquez sur Plus d'options , puis sélectionnez Supprimer. Dans la boîte de dialogue de confirmation, sélectionnez Delete (Supprimer).

  • Pour modifier l'état d'activation des règles d'alerte, cliquez sur le bouton situé sous le titre Enabled (Activé).

Si vous sélectionnez une règle d'alerte, la fenêtre Policy details (Détails des règles) s'affiche. Par exemple, la capture d'écran suivante présente les détails de la règle d'alerte nommée Test staging :

Exemple de page de détails d'une règle d'alerte

La section Notifications indique si vous avez configuré une règle pour recevoir une notification en cas de fermeture d'incidents. Vous recevez toujours une notification lors de l'ouverture d'un incident. Pour modifier le comportement des notifications, modifiez la règle d'alerte.

Vous pouvez modifier, supprimer, copier, activer ou désactiver une règle d'alerte à partir de la page Policy details (Détails des règles). Par exemple, pour désactiver une règle d'alerte actuellement activée, cliquez sur Enabled (Activé), puis sélectionnez Turn off (Désactiver). De même, pour activer une règle actuellement désactivée, cliquez sur Disabled (Désactivé).