Créer des règles d'alerte basées sur les métriques

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Ce document explique comment utiliser la console Google Cloud pour créer une règle d'alerte qui surveille une métrique. Par exemple, une règle d'alerte qui surveille l'utilisation du processeur d'une machine virtuelle (VM) peut notifier une équipe d'astreinte lorsque cette règle est déclenchée. Une stratégie qui surveille un test de disponibilité peut également avertir les équipes d'astreinte et de développement.

Ce contenu ne concerne pas les règles d'alerte basées sur les journaux. Pour en savoir plus sur les règles d'alerte basées sur les journaux, qui vous envoient une notification lorsqu'un message particulier s'affiche dans les journaux, consultez la page Surveiller vos journaux.

Ce document ne décrit pas les éléments suivants:

Avant de commencer

  1. Assurez-vous que votre rôle Identity and Access Management inclut les autorisations du rôle roles/monitoring.alertPolicyEditor. Pour en savoir plus sur les rôles, consultez Contrôle des accès.

  2. Assurez-vous de bien connaître les concepts généraux des règles d'alerte. Pour en savoir plus sur ces sujets, consultez la page Présentation des alertes.

  3. Configurez les canaux de notification que vous souhaitez utiliser pour recevoir les alertes. Pour en savoir plus sur ces étapes, consultez la page Gérer les canaux de notification.

    À des fins de redondance, nous vous recommandons de créer plusieurs types de canaux de notification. Pour en savoir plus, consultez Gérer les canaux de notification.

Créer des règles d'alerte

Cette section explique comment créer une règle d'alerte. Par défaut, lorsque vous commencez à créer un flux d'alerte avec la console Google Cloud, une interface pilotée par un menu s'affiche. Ces menus vous permettent de sélectionner le type de métrique que vous souhaitez surveiller et de configurer la règle. Le menu de sélection de métriques répertorie tous les types de métriques générés par les services Google Cloud et les types de métriques personnalisées que vous avez définis, à condition qu'il existe des données pour le type de métrique.

Il existe trois types de conditions. Ces conditions se déclenchent en fonction de la valeur d'une métrique franchissant un seuil, de l'absence de données de métrique ou de la valeur prévue d'une métrique franchissant un seuil. Pour en savoir plus sur la configuration de ces conditions, consultez les sections suivantes de ce document:

Pour créer une alerte autre qu'un type de métrique généré par un service Google Cloud ou des types de métriques personnalisées que vous avez définis, utilisez l'un des flux de création d'alerte spécialisés. Par exemple, la page Services de la console Google Cloud contient un flux d'alerte de création guidée spécifique à la surveillance des objectifs de niveau de service (SLO). Pour en savoir plus sur les types de règles d'alerte spécialisés qui pourraient vous intéresser, consultez les articles suivants:

Alerter sur la valeur de la métrique

Cette section explique comment créer une règle d'alerte qui surveille un type de métrique intégré ou un type de métrique personnalisée que vous créez, et compare la valeur de cette métrique à un seuil statique. Pour créer une règle qui compare la valeur d'une série temporelle à un seuil dynamique, vous devez utiliser MQL. Pour en savoir plus, consultez la page Créer des niveaux de gravité dynamiques à l'aide du langage MQL.

Ce contenu ne concerne pas les règles d'alerte basées sur les journaux. Pour en savoir plus sur les règles d'alerte basées sur les journaux, qui vous envoient une notification lorsqu'un message particulier s'affiche dans les journaux, consultez la page Surveiller vos journaux.

Pour créer une règle d'alerte qui compare la valeur de cette métrique à un seuil statique, procédez comme suit:

  1. Dans la console Google Cloud, sélectionnez Monitoring ou cliquez sur le bouton suivant :
    Accéder à Monitoring

  2. Dans le volet de navigation, sélectionnez Alertes, puis cliquez sur Créer une règle.

  3. Sélectionnez la série temporelle à surveiller:

    1. Cliquez sur Sélectionner une métrique, puis saisissez dans la barre de filtre le nom du type de métrique ou de ressource qui vous intéresse. Par exemple, si vous saisissez "VM instance" dans la barre de filtre, seuls les types de métriques des instances de VM sont répertoriés. Si vous saisissez "CPU", les menus n'affichent que les types de métriques dont le nom contient "CPU".

    2. Parcourez les menus pour sélectionner une métrique, puis cliquez sur Appliquer.

      Si le type de métrique que vous souhaitez surveiller ne figure pas dans la liste, désactivez l'option Show only active resources & metrics (Afficher uniquement les ressources et les métriques actives) dans le menu Select a metric (Sélectionner une métrique). Pour en savoir plus, consultez Résoudre les problèmes liés à la métrique non répertoriée dans le menu.

    3. Facultatif: Pour surveiller un sous-ensemble de la série temporelle correspondant aux types de métriques et de ressources que vous avez sélectionnés à l'étape précédente, cliquez sur Ajouter un filtre. Dans la boîte de dialogue de filtrage, sélectionnez le libellé par lequel filtrer, un comparateur, puis la valeur de filtre. Par exemple, le filtre zone =~ ^us.*.a$ utilise une expression régulière pour établir une correspondance avec toutes les données de séries temporelles dont le nom de zone commence par us et se termine par a. Pour en savoir plus, consultez Filtrer les données sélectionnées.

    4. Facultatif: Pour modifier l'alignement des points d'une série temporelle, définissez la fenêtre glissante et la fenêtre glissante dans la section Transformer les données.

      Ces champs indiquent comment les points enregistrés dans une fenêtre sont combinés. Par exemple, supposons que la fenêtre soit de 15 minutes et que son fenêtrage soit max. Le point aligné correspond à la valeur maximale de tous les échantillons enregistrés au cours des 15 dernières minutes. Pour en savoir plus, consultez Aligner les séries temporelles.

    5. (Facultatif) Combinez des séries temporelles pour réduire le nombre de séries temporelles surveillées par une règle ou pour ne surveiller qu'un ensemble de séries temporelles. Par exemple, vous pouvez surveiller l'utilisation du processeur de vos instances de VM par moyenne de la zone. Par défaut, les séries temporelles ne sont pas combinées.

      Pour combiner toutes les séries temporelles, procédez comme suit:

      1. Cliquez sur Développer dans l'en-tête Série temporelle.
      2. Définissez le champ Agrégation de séries temporelles sur une valeur autre que none. Par exemple, lorsque vous sélectionnez mean, chaque point de la série temporelle affichée correspond à la moyenne des points de chaque série temporelle.
      3. Vérifiez que le champ Grouper les séries temporelles par est vide.

      Pour combiner ou regrouper des séries temporelles par valeur de libellé, procédez comme suit:

      1. Cliquez sur Développer dans l'en-tête Série temporelle.
      2. Définissez le champ Agrégation de séries temporelles sur une valeur autre que none.
      3. Dans le champ Grouper les séries temporelles par, sélectionnez un ou plusieurs libellés de regroupement.

      Par exemple, si vous effectuez un regroupement par zone, puis définissez le champ d'agrégation sur mean, le graphique affiche une série temporelle pour chaque zone. Les séries temporelles affichées pour une zone spécifique correspondent à la moyenne de toutes les séries temporelles associées à cette zone.

      Les champs Transformation secondaire des données sont désactivés par défaut. Lorsqu'elles sont activées, ces opérations sont appliquées après la transformation principale des données.

      Pour en savoir plus, consultez la section Combiner les séries temporelles.

    6. Cliquez sur Next (Suivant).

  4. Configurez le déclencheur de condition:

    1. Laissez le champ Type de condition sur la valeur par défaut Seuil.

    2. Sélectionnez une valeur pour le menu Déclencheur d'alerte. Ce menu vous permet de spécifier le sous-ensemble de séries temporelles qui doivent enfreindre le seuil avant le déclenchement de la condition.

    3. Lorsque les valeurs d'une métrique ne respectent pas le seuil, utilisez les champs Position du seuil et Valeur du seuil. Par exemple, si vous définissez ces valeurs sur Au-dessus du seuil et 0.3, toutes les mesures supérieures à 0.3 dépassent le seuil.

    4. Facultatif: pour sélectionner la durée pendant laquelle les mesures doivent enfreindre le seuil avant que l'alerte ne génère un incident, développez Options avancées, puis utilisez le menu Période de test.

      La valeur par défaut est Aucun nouveau test. Avec ce paramètre, une seule mesure peut entraîner une notification. Pour en savoir plus et obtenir un exemple, consultez la section Durée et durée de l'alignement.

    5. Facultatif: Pour spécifier comment Monitoring évalue la condition lorsque les données cessent d'arriver, développez Options avancées, puis utilisez le menu Évaluation des données manquantes.

      Le menu Evaluation missing data (Évaluation des données manquantes) est désactivé lorsque la valeur de Intervalle de nouveau test est Aucun nouveau test.

      Google Cloud Console
      Champ "Évaluation des données manquantes"
      Résumé Détails
      Données manquantes Les incidents ouverts restent ouverts.
      Aucun nouvel incident n'est ouvert.

      Pour les conditions remplies, elles continuent d'être remplies lorsque les données cessent d'arriver. Si un incident est ouvert pour cette condition, il reste ouvert. Lorsqu'un incident est ouvert et qu'aucune donnée n'arrive, le minuteur de fermeture automatique démarre après un délai d'au moins 15 minutes. Si le délai expire, l'incident est clos.

      Les conditions qui ne sont pas remplies continuent de ne pas être remplies lorsque les données cessent d'arriver.

      Points de données manquants traités comme des valeurs qui ne respectent pas la condition de la règle Les incidents ouverts restent ouverts.
      Vous pouvez ouvrir de nouveaux incidents.

      Pour les conditions remplies, elles continuent d'être remplies lorsque les données cessent d'arriver. Si un incident est ouvert pour cette condition, il reste ouvert. Lorsqu'un incident est ouvert et qu'aucune donnée n'arrive au bout de 24 heures après la fermeture automatique, l'incident est clos.

      Pour les conditions qui ne sont pas remplies, ce paramètre entraîne le comportement de la condition de seuil de métrique comme une metric-absence condition. Si les données n'arrivent pas dans le délai spécifié par l'intervalle de test, la condition est évaluée comme remplie. Pour une règle d'alerte avec une condition, la condition remplie entraîne l'ouverture d'un incident.

      Points de données manquants traités comme des valeurs qui respectent la règle Les incidents ouverts sont fermés.
      Aucun nouvel incident n'est ouvert.

      Pour les conditions remplies, la condition cesse d'être remplie lorsque les données cessent d'arriver. Si un incident est ouvert pour cette condition, il est fermé.

      Les conditions qui ne sont pas remplies continuent de ne pas être remplies lorsque les données cessent d'arriver.

    6. Cliquez sur Next (Suivant).

  5. Facultatif: Créez une règle d'alerte avec plusieurs conditions.

    La plupart des stratégies surveillent un seul type de métrique. Par exemple, une stratégie peut surveiller le nombre d'octets écrits dans une instance de VM. Lorsque vous souhaitez surveiller plusieurs types de métriques, créez une règle avec plusieurs conditions. Chaque condition surveille un type de métrique. Une fois les conditions créées, vous spécifiez comment elles sont combinées. Pour en savoir plus, consultez la section Stratégies avec plusieurs conditions.

    Pour créer une règle d'alerte avec plusieurs conditions, procédez comme suit:

    1. Pour chaque condition supplémentaire, cliquez sur Ajouter une condition d'alerte, puis configurez cette condition.
    2. Cliquez sur Suivant et configurez la combinaison de conditions.
    3. Cliquez sur Suivant pour passer à la configuration des notifications et de la documentation.
  6. Configurez les notifications et la documentation :

    1. Développez le menu Canaux de notification, puis sélectionnez vos canaux de notification. À des fins de redondance, nous vous recommandons d'ajouter à une règle d'alerte plusieurs types de canaux de notification. Pour en savoir plus, consultez Gérer les canaux de notification.

    2. Facultatif: Pour être notifié lorsqu'un incident est fermé, sélectionnez Notifier en cas de fermeture d'un incident. Par défaut, lorsque vous créez une règle d'alerte avec la console Google Cloud, une notification n'est envoyée que lorsqu'un incident est créé.

    3. Facultatif: Pour modifier le délai d'attente de Monitoring avant la fermeture d'un incident après l'arrivée des données, sélectionnez une option dans le menu Durée de la fermeture automatique de l'incident. Par défaut, lorsque les données cessent d'arriver, Monitoring attend sept jours avant de fermer un incident ouvert.

    4. Facultatif: Pour ajouter des libellés personnalisés à la règle d'alerte, procédez comme suit dans la section Libellés d'utilisateurs de règles:

      1. Cliquez sur Ajouter une étiquette, puis saisissez un nom dans le champ Clé. Les noms des libellés doivent commencer par une lettre minuscule et contenir des lettres minuscules, des chiffres, des traits de soulignement et des tirets. Par exemple, saisissez severity.
      2. Cliquez sur Valeur, puis saisissez une valeur pour votre libellé. Les valeurs de libellé peuvent contenir des lettres minuscules, des chiffres, des traits de soulignement et des tirets. Par exemple, saisissez critical.

      Pour savoir comment gérer vos alertes à l'aide de libellés de règle, consultez Ajouter des niveaux de gravité à une règle d'alerte.

    5. Facultatif: Pour inclure une documentation personnalisée avec une notification, saisissez ce contenu dans la section Documentation. Pour mettre en forme votre documentation, vous pouvez utiliser Markdown. Pour extraire des informations de la règle elle-même afin de personnaliser le contenu de votre documentation, vous pouvez utiliser des variables. Par exemple, la documentation peut inclure un titre tel que Addressing High CPU Usage et des informations permettant d'identifier le projet:

      ## Addressing High CPU Usage
      
      This note contains information about high CPU Usage.
      
      You can include variables in the documentation. For example:
      
      This alert originated from the project ${project}, using
      the variable $${project}.
      

      Lors de la création des notifications, Monitoring remplace les variables par leurs valeurs. Les valeurs remplacent les variables uniquement dans les notifications. Le volet d'aperçu et les autres emplacements de la console Google Cloud n'affichent que la mise en forme Markdown:

      Exemple de rédaction d'une note de documentation avec Markdown.

      Pour en savoir plus, consultez Utiliser Markdown et les variables dans les modèles de documentation et Utiliser les commandes de canal.

    6. Cliquez sur Nom de l'alerte et saisissez un nom pour la règle d'alerte.

  7. Cliquez sur Créer une stratégie.

Alerte sur l'absence de métrique

Pour être notifié lorsque vous arrêtez de recevoir des données de métrique pendant une durée spécifiée, créez une règle d'alerte avec une condition d'absence de métrique. Les conditions d'absence de métrique nécessitent au moins une mesure réussie (celle qui récupère des données) dans l'intervalle de temps maximal après l'installation ou la modification de la règle. La durée maximale configurable est de 24 heures si vous utilisez la console Google Cloud et de 24,5 heures si vous utilisez l'API Cloud Monitoring.

Pour créer une règle d'alerte avec une condition d'absence de métrique, procédez comme suit:

  1. Dans la console Google Cloud, sélectionnez Monitoring ou cliquez sur le bouton suivant:
    Accéder à Monitoring
  2. Dans le volet de navigation, sélectionnez Alertes, puis cliquez sur Créer une règle.
  3. Sélectionnez la métrique à surveiller, ajoutez des filtres et spécifiez la manière dont les données sont transformées. Ces étapes sont les mêmes pour tous les types de conditions. Pour en savoir plus sur ces étapes, consultez Alerte sur la valeur de la métrique: sélectionner une série temporelle.
  4. Configurez le déclencheur de condition:

    1. Sélectionnez Absence de métrique pour le type de condition.
    2. Sélectionnez une valeur pour le menu Déclencheur d'alerte. Ce menu vous permet de spécifier le sous-ensemble de séries temporelles qui ne doivent pas comporter de données avant que la condition ne soit déclenchée.
    3. Dans le champ Heure d'absence du déclencheur, spécifiez la durée pendant laquelle les données de métrique doivent être absentes avant de recevoir une notification.

    Monitoring évalue toujours les conditions d'absence de métrique avec un intervalle glissant de 24 heures. La console affiche un message indiquant que la valeur que vous avez saisie est remplacée.

  5. Configurez les canaux de notification, la documentation et le nom de votre règle d'alerte. Pour en savoir plus, consultez la section Alerte sur la valeur de la métrique: notifications et documentation.

  6. Vérifiez votre règle d'alerte, puis cliquez sur Créer une règle.

Alerter sur la valeur prévue d'une métrique

Pour être averti lorsque la règle d'alerte prévoit que le seuil ne sera pas respecté dans une fenêtre de prévision, créez une condition de prévision. Les conditions de prévision sont conçues pour surveiller les métriques liées aux contraintes. Les métriques de contrainte incluent celles qui enregistrent l'utilisation du quota, de la mémoire et du stockage.

Pour créer une règle d'alerte qui génère une alerte basée sur une prévision, procédez comme suit:

  1. Dans la console Google Cloud, sélectionnez Monitoring ou cliquez sur le bouton suivant:
    Accéder à Monitoring
  2. Dans le volet de navigation, sélectionnez Alertes, puis cliquez sur Créer une règle.
  3. Sélectionnez la métrique à surveiller, ajoutez des filtres et spécifiez la manière dont les données sont transformées. Ces étapes sont les mêmes pour tous les types de conditions. Pour en savoir plus sur ces étapes, consultez Alerte sur la valeur de la métrique: sélectionner une série temporelle.

    Sélectionnez une métrique de contrainte dont le type de valeur est double ou int64, et ne sélectionnez pas de métrique pour une instance d'Amazon VM. Lorsque plus de 64 séries temporelles sont surveillées, Monitoring effectue des prévisions pour les 64 séries temporelles dont les valeurs sont les plus proches du seuil ou qui enfreignent déjà le seuil. Pour les autres séries temporelles, leurs valeurs sont comparées au seuil.

  4. Configurez le déclencheur de condition:

    1. Sélectionnez le type de condition Prévision.

    2. Sélectionnez une valeur pour le menu Déclencheur d'alerte. Ce menu vous permet de spécifier le sous-ensemble de séries temporelles qui doivent enfreindre le seuil avant le déclenchement de la condition.

    3. Sélectionnez une valeur pour la Période de prévision. La valeur que vous sélectionnez correspond à la durée future pour la prévision. Vous devez définir cette valeur sur une durée comprise entre 1 heure (3 600 secondes) et 7 jours (604 800 secondes).

    4. Utilisez les champs Position du seuil et Valeur du seuil lorsque la valeur prédite de la métrique sélectionnée ne respecte pas le seuil. Par exemple, si vous définissez ces valeurs sur Au-dessus du seuil et 10, toute valeur prédite supérieure à 10 enfreint le seuil.

    5. Facultatif: Développez Options avancées et définissez la valeur de la Période de test. La valeur par défaut de ce champ est Aucun nouveau test. Nous vous recommandons de définir ce champ sur au moins 10 minutes.

      Par exemple, supposons que vous configuriez la condition de prévision de sorte qu'une série temporelle puisse se déclencher. Supposons également que la période de test soit définie sur 15 minutes, que la période de prévision soit définie sur 1 heure et qu'une violation se produise lorsque la valeur de la série temporelle est supérieure au seuil, qui est défini sur 10. La condition se déclenche dans les cas suivants:

      • Toutes les valeurs d'une série temporelle dépassent 10 et y restent pendant au moins 15 minutes.
      • Sur une période de 15 minutes, chaque prévision pour une série temporelle prédit que sa valeur augmentera au-delà du seuil de 10 au cours de l'heure suivante.
    6. (Facultatif) Pour spécifier comment Monitoring évalue la condition lorsque les données ne sont plus disponibles, développez Options avancées, puis utilisez le menu Évaluation des données manquantes.

      Le menu Evaluation missing data (Évaluation des données manquantes) est désactivé lorsque la valeur de Intervalle de nouveau test est Aucun nouveau test.

      Lorsqu'il manque des données pendant plus de 10 minutes, une condition de prévision cesse de générer des prévisions et utilise à la place la valeur du champ Données d'évaluation manquantes pour déterminer comment gérer les incidents. Lorsque les observations sont redémarrées, les prévisions sont redémarrées.

      Google Cloud Console
      Champ "Évaluation des données manquantes"
      Résumé Détails
      Données manquantes Les incidents ouverts restent ouverts.
      Aucun nouvel incident n'est ouvert.

      Pour les conditions remplies, elles continuent d'être remplies lorsque les données cessent d'arriver. Si un incident est ouvert pour cette condition, il reste ouvert. Lorsqu'un incident est ouvert et qu'aucune donnée n'arrive, le minuteur de fermeture automatique démarre après un délai d'au moins 15 minutes. Si le délai expire, l'incident est clos.

      Les conditions qui ne sont pas remplies continuent de ne pas être remplies lorsque les données cessent d'arriver.

      Points de données manquants traités comme des valeurs qui ne respectent pas la condition de la règle Les incidents ouverts restent ouverts.
      Vous pouvez ouvrir de nouveaux incidents.

      Pour les conditions remplies, elles continuent d'être remplies lorsque les données cessent d'arriver. Si un incident est ouvert pour cette condition, il reste ouvert. Lorsqu'un incident est ouvert et qu'aucune donnée n'arrive au bout de 24 heures après la fermeture automatique, l'incident est clos.

      Pour les conditions qui ne sont pas remplies, ce paramètre entraîne le comportement de la condition de seuil de métrique comme une metric-absence condition. Si les données n'arrivent pas dans le délai spécifié par l'intervalle de test, la condition est évaluée comme remplie. Pour une règle d'alerte avec une condition, la condition remplie entraîne l'ouverture d'un incident.

      Points de données manquants traités comme des valeurs qui respectent la règle Les incidents ouverts sont fermés.
      Aucun nouvel incident n'est ouvert.

      Pour les conditions remplies, la condition cesse d'être remplie lorsque les données cessent d'arriver. Si un incident est ouvert pour cette condition, il est fermé.

      Les conditions qui ne sont pas remplies continuent de ne pas être remplies lorsque les données cessent d'arriver.

    7. Cliquez sur Next (Suivant).

  5. Configurez les canaux de notification, la documentation et le nom de votre règle d'alerte. Pour en savoir plus, consultez la section Alerte sur la valeur de la métrique: notifications et documentation.

  6. Vérifiez votre règle d'alerte, puis cliquez sur Créer une règle.

Alerte sur l'évolution d'une métrique

Pour être notifié lorsque le taux de variation d'une métrique dépasse un seuil, créez une règle d'alerte de taux d'évolution. Par exemple, pour recevoir une notification lorsque l'utilisation du processeur augmente trop rapidement, créez ce type de règle.

Pour créer ce type de règle, suivez les étapes décrites dans la section Alerter sur la valeur de la métrique. Toutefois, assurez-vous de définir le champ Fonction de fenêtrage glissant sur pourcentage de modification.

Lorsque vous sélectionnez la fonction de pourcentage de modification, Monitoring effectue les opérations suivantes:

  1. Si la série temporelle possède un genre de métrique DELTA ou CUMULATIVE, elle est convertie en genre de métrique GAUGE. Pour en savoir plus sur la conversion, consultez la section Genres, types et conversions.
  2. Le pourcentage de calcul a changé en comparant la valeur moyenne de la fenêtre de 10 minutes la plus récente à celle de la fenêtre de 10 minutes précédant la période de test.

    La période d'analyse de 10 minutes est une valeur fixe ; vous ne pouvez pas la modifier. Cependant, vous spécifiez la fenêtre de nouveau test lorsque vous créez une condition.

Alerte sur le nombre de processus exécutés sur une VM

Pour surveiller le nombre de processus exécutés sur vos VM qui répondent aux conditions que vous spécifiez, créez une règle d'alerte process-health. Par exemple, vous pouvez compter le nombre de processus démarrés par l'utilisateur racine. Vous pouvez également compter le nombre de processus dont la commande d'appel contenait une chaîne spécifique. Une règle d'alerte peut vous avertir lorsque le nombre de processus est supérieur ou inférieur à un seuil. Pour en savoir plus sur les processus pouvant être surveillés, consultez la section Processus surveillés.

Les métriques d'état de processus sont disponibles lorsque l'agent Ops ou l'agent Monitoring s'exécute sur les ressources surveillées. Pour plus d'informations sur les agents, consultez Agents de la suite Google Cloud Operations.

Pour surveiller le nombre de processus exécutés sur une VM, procédez comme suit:

  1. Dans la console Google Cloud, sélectionnez Monitoring ou cliquez sur le bouton suivant:
    Accéder à Monitoring

  2. Dans le volet de navigation, sélectionnez Alertes, puis cliquez sur Créer une règle.

  3. Sélectionnez ? dans l'en-tête de la section Sélectionner une métrique, puis sélectionnez Mode de filtrage direct dans l'info-bulle.

  4. Saisissez un filtre Monitoring.

    Par exemple, pour compter le nombre de processus exécutés sur des instances de VM Compute Engine dont le nom inclut nginx, saisissez la commande suivante :

    select_process_count("monitoring.regex.full_match(\".*nginx.*\")")
    resource.type="gce_instance"
    

    Pour en savoir plus sur la syntaxe, consultez les ressources suivantes :

  5. Renseignez la boîte de dialogue de la règle d'alerte. Ces étapes ne sont décrites que dans cette section. Pour en savoir plus, consultez Alerter sur la valeur de la métrique:

    1. Facultatif: vérifiez et mettez à jour les paramètres de transformation des données.
    2. Cliquez sur Suivant et configurez le déclencheur de condition.
    3. Cliquez sur Suivant, puis suivez les étapes de notification et de documentation.
    4. Cliquez sur Nom de l'alerte et saisissez un nom pour la règle d'alerte.
    5. Cliquez sur Créer une stratégie.

Processus surveillés

Les processus qui s'exécutent dans votre système ne peuvent pas tous être surveillés par une condition d'état de processus. Cette condition sélectionne les processus à surveiller à l'aide d'une expression régulière appliquée à la ligne de commande qui a appelé le processus. Lorsque le champ de ligne de commande n'est pas disponible, le processus ne peut pas être surveillé.

Pour déterminer si un processus peut être surveillé par une condition d'état de processus, vous pouvez examiner les processus actifs. Par exemple, sur un système Linux, vous pouvez utiliser la commande ps:

    ps aux | grep nfs
    USER      PID  %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
    root      1598  0.0  0.0      0     0 ?        S<   Oct25   0:00 [nfsd4]
    root      1639  0.0  0.0      0     0 ?        S    Oct25   2:33 [nfsd]
    root      1640  0.0  0.0      0     0 ?        S    Oct25   2:36 [nfsd]

Lorsqu'une entrée COMMAND est entourée de crochets, par exemple [nfsd], les informations de ligne de commande du processus ne sont pas disponibles. Dans ce cas, vous ne pouvez pas surveiller le processus avec Cloud Monitoring.

Alerte en cas de non-respect du SLO

Pour être informé lorsqu'un système risque de ne pas respecter un objectif de niveau de service (SLO) défini, créez une règle d'alerte. Par exemple, pour certains systèmes, un SLO peut garantir une disponibilité de 99% sur une semaine calendaire. Un autre SLO peut indiquer que la latence ne peut dépasser 300 ms que dans 5 % des requêtes sur une période glissante de 30 jours.

Pour savoir comment créer une alerte pour un SLO, consultez les documents suivants:

Pour créer une règle d'alerte de SLO lorsque vous utilisez l'API Cloud Monitoring, les données que vous fournissez à l'API incluent un sélecteur de série temporelle. Pour en savoir plus sur ces sélecteurs, consultez la page Récupérer les données de SLO.

Vous pouvez créer une règle d'alerte de SLO à l'aide de l'interface d'alerte de la console Google Cloud. Pour ce faire, suivez la procédure décrite dans Créer une règle d'alerte d'état de processus. Toutefois, lorsque vous atteignez l'étape de saisie d'un filtre Monitoring, saisissez un sélecteur de série temporelle au lieu d'une expression d'état de processus.

Alerte en cas d'échec du test de disponibilité

Nous vous recommandons de créer une règle d'alerte pour être informé lorsqu'un test de disponibilité échoue. L'infrastructure des tests de disponibilité inclut un flux de création d'alertes guidé. Pour en savoir plus sur ces étapes, consultez la page Alertes sur les tests de disponibilité.

Restreindre la condition à un groupe de ressources

Si vous souhaitez surveiller un ensemble de ressources dont l'appartenance au groupe est définie par certains critères, créez un groupe de ressources et surveillez le groupe. Par exemple, vous pouvez définir un groupe de ressources pour les instances de VM Compute Engine que vous utilisez pour la production. Une fois ce groupe créé, vous pouvez créer une règle d'alerte qui ne surveille que ce groupe d'instances. Lorsque vous ajoutez une VM correspondant aux critères du groupe, la règle d'alerte la surveille automatiquement.

Vous pouvez créer une règle d'alerte de groupe de ressources à l'aide de la console Google Cloud. Pour ce faire, suivez la procédure décrite dans Créer une règle d'alerte d'état de processus. Toutefois, après avoir sélectionné la métrique, ajoutez un filtre qui limite les séries temporelles à celles correspondant aux critères du groupe.

Pour créer une règle d'alerte qui surveille un groupe de ressources, procédez comme suit:

  1. Dans la console Google Cloud, sélectionnez Monitoring ou cliquez sur le bouton suivant :
    Accéder à Monitoring

  2. Dans le volet de navigation, sélectionnez Alertes, puis cliquez sur Créer une règle.

  3. Sélectionnez la série temporelle à surveiller:

    1. Cliquez sur Sélectionner une métrique, puis saisissez dans la barre de filtre le nom du type de métrique ou de ressource qui vous intéresse. Par exemple, si vous saisissez "VM instance" dans la barre de filtre, seuls les types de métriques des instances de VM sont répertoriés. Si vous saisissez "CPU", les menus n'affichent que les types de métriques dont le nom contient "CPU".

    2. Parcourez les menus pour sélectionner une métrique, puis cliquez sur Appliquer.

      Si le type de métrique que vous souhaitez surveiller ne figure pas dans la liste, désactivez l'option Show only active resources & metrics (Afficher uniquement les ressources et les métriques actives) dans le menu Select a metric (Sélectionner une métrique). Pour en savoir plus, consultez Résoudre les problèmes liés à la métrique non répertoriée dans le menu.

    3. Cliquez sur Ajouter un filtre, puis sélectionnez Groupe.

    4. Développez la section Valeur , puis sélectionnez le nom du groupe.

    5. Cliquez sur OK.

  4. Suivez la procédure permettant de configurer la règle d'alerte, comme décrit dans Alerte sur la valeur de la métrique: Configurer le déclencheur.

Résoudre les problèmes: métrique non répertoriée dans le menu

Par défaut, les menus Sélectionner une métrique répertorient tous les types de métriques contenant des données. Par exemple, si vous n'utilisez pas Pub/Sub, ces menus ne contiennent aucune métrique Pub/Sub.

Vous pouvez configurer une alerte même si les données que vous souhaitez surveiller n'existent pas encore:

  • Pour créer une alerte qui surveille une métrique Google Cloud, suivez les étapes décrites dans la section Alerter sur la valeur de la métrique. Toutefois, à l'étape où vous sélectionnez une métrique, désactivez Afficher uniquement les ressources et les métriques actives dans le menu Sélectionner une métrique. Lorsque ce paramètre est désactivé, le menu répertorie toutes les métriques des services Google Cloud, ainsi que toutes les métriques contenant des données.

  • Pour configurer une alerte pour un type de métrique personnalisée avant que celui-ci ne génère des données, suivez la procédure décrite dans Créer une règle d'alerte d'état de processus. Lorsque vous atteignez l'étape de saisie d'un filtre Monitoring, indiquez un filtre qui spécifie le type de métrique et la ressource. Voici un exemple de filtre Monitoring spécifiant un type de métrique:

    metric.type="compute.googleapis.com/instance/disk/write_bytes_count"
    resource.type="gce_instance"