Cette page a été traduite par l'API Cloud Translation.

Aperçu des alertes

Ce document explique comment être averti lorsque votre demande échoue ou lorsque les performances d'une application ne répondent pas aux critères.

Fonctionnement des alertes

Le processus d'alerte Cloud Monitoring se compose de trois parties:

Une règle d'alerte, qui décrit les circonstances dans lesquelles vous souhaitez être averti et comment vous souhaitez être averti d'un incident. La règle d'alerte peut surveiller les données de séries temporelles stockées par Surveillance ou journaux stockés par Cloud Logging. Lorsque ces données remplissent la condition de la règle d'alerte, Monitoring crée un incident et envoie les notifications.
Chaque incident est un enregistrement du type de données surveillée et quand les conditions étaient remplies. Ces informations peut vous aider à résoudre les problèmes à l’origine de l’incident.
Un canal de notification définit la manière dont vous recevez des notifications quand Monitoring crée un incident. Par exemple, vous pouvez configurer un canal de notification à envoyer par e-mail à my-support-team@example.com et de publier un message Slack sur le canal #my-support-team. Une règle d'alerte peut contenir un ou plusieurs canaux de notification.

Les règles d'alerte peuvent évaluer trois types de données:

Les données de séries temporelles, également appelées données de métriques, sont stockées Surveillance. Ces types de règles sont appelés règles d'alerte basées sur les métriques.

Pour apprendre à configurer une règle d'alerte basée sur les métriques, essayez le guide de démarrage rapide de Compute Engine.
Données d'entrée de journal stockées par Cloud Logging. Des règles d'alerte qui évaluent les entrées de journal individuelles sont appelées basées sur les journaux. Les règles d'alerte basées sur les journaux vous avertissent lorsqu'un message particulier s'affiche dans vos journaux. Pour en savoir plus, consultez Surveiller vos journaux.
Résultats d'une requête SQL exécutée dans l'Analyse de journaux sur une entrée de journal stockées dans Logging. Règles d'alerte qui surveillent les résultats d'une requête SQL sont appelés Règles d'alerte basées sur SQL. Pour en savoir plus, consultez Surveillez les résultats de vos requêtes SQL avec une règle d'alerte.

Les règles d'alerte basées sur SQL sont disponibles en version Preview publique.

Le processus d'alerte vous aide à répondre aux problèmes lorsque les performances une application ne répond pas aux valeurs acceptables. Par exemple, vous déployez un serveur Web sur une machine virtuelle Compute Engine (VM). Même si vous vous attendez à ce que la latence de réponse HTTP vous devez demander à l'équipe d'assistance de vous répondre application présente une latence élevée pendant une période étendue. Vous pouvez créer règle d'alerte basée sur les métriques, qui surveille la réponse HTTP de l'application la métrique de latence. Si la latence de réponse est supérieure à deux secondes pendant au moins cinq minutes, Monitoring crée un incident et envoie des notifications par e-mail à votre équipe d'assistance.

Créer une règle d'alerte

Il existe plusieurs façons de créer une règle d'alerte. Par exemple, vous pouvez utiliser des règles d'alerte préconfigurées en activant les alertes recommandées à partir d'intégrations ou de certaines pages de la console Google Cloud. Vous pouvez également configurer une nouvelle règle d'alerte à l'aide de la propriété la console Google Cloud, l'API Cloud Monitoring, la Google Cloud CLI et Terraform.

Utiliser les intégrations et les règles d'alerte recommandées

Monitoring fournit des packages prédéfinis vous permettant de créer des règles d'alerte Services Google Cloud et intégrations tierces. Les packages incluent des règles d'alerte recommandées, des exemples de tableaux de bord et des métriques clés pour le service. Ces packages sont disponibles pour des services Google Cloud tels que Google Kubernetes Engine, Compute Engine et Cloud SQL, et d'intégrations tierces courantes telles que MongoDB, Kafka et Elasticsearch.

Lorsque vous installez un package, vous pouvez activer les règles d'alerte recommandées pour ce package. Lorsque vous activez une règle d'alerte recommandée, vous configurez son canal de notification et modifiez éventuellement d'autres valeurs. Après la configuration, la règle d'alerte commence à surveiller sa cible immédiatement, sans aucune autre action de la part de l'utilisateur.

Les règles d'alerte recommandées sont utiles lorsque vous déployez un nouveau service et que vous voulez être alerté sur des métriques importantes. Par exemple, Le package d'intégration Cloud SQL est fourni avec les règles d'alerte recommandées pour instances ayant échoué et transactions lentes:

Deux des règles d'alerte recommandées pour le package d'intégration Cloud SQL.

Pour en savoir plus sur l'intégration des alertes, consultez Surveiller des applications tierces.

Créer des règles d'alerte

Vous pouvez créer des règles d'alerte pour surveiller différents types de données en fonction de vos besoins. Les sections suivantes répertorient les différents types de données que vous pouvez surveiller à l'aide de règles d'alerte.

Surveiller les données de séries temporelles

Type de condition	Description	Exemple
Condition de seuil de métrique	Les conditions de seuil des métriques sont remplies lorsque leurs valeurs sont supérieur ou inférieur à un seuil pour une fenêtre de nouveau test spécifique. Pour en savoir plus, consultez Créer des règles d'alerte basées sur les métriques et Créer des règles d'alerte à l'aide de l'API	Vous avez besoin d'une règle d'alerte qui envoie une notification lorsque la réponse la latence est supérieure ou égale à 500 ms pendant cinq tests de disponibilité consécutifs qui durent plus de 10 minutes.
Condition d'absence de métrique	Les conditions d'absence de métrique sont remplies lorsqu'une série temporelle surveillée ne comporte aucun des données pour une fenêtre de nouveau test spécifique. La période maximale de nouvelle analyse est de 23,5 heures. Pour en savoir plus, consultez Créer des règles d'alerte en cas d'absence de métrique et créer des règles d'alerte à l'aide de l'API	Vous voulez une règle d'alerte qui ouvre un incident avec votre équipe d'assistance lorsqu'une ressource ne répond à aucune requête HTTP via en cinq minutes.
Condition de valeur de métrique prévue	Les conditions de valeur de métrique prévue sont remplies lorsque la règle d'alerte prévoit que le seuil sera dépassé au cours de la prochaine fenêtre de prévision. La période de prévision peut aller de 1 heure à 7 jours. Pour en savoir plus, consultez les pages Créer des règles d'alerte basées sur la valeur prévue d'une métrique et Créer des règles d'alerte à l'aide de l'API.	Vous voulez une règle d'alerte qui ouvre un incident avec votre équipe d'assistance équipe lorsqu'une ressource est susceptible d'utiliser 80% de l'espace disque dans les prochaines 24 heures.

Type de condition

Description

Exemple

Condition de seuil de métrique

Les conditions de seuil des métriques sont remplies lorsque leurs valeurs sont supérieur ou inférieur à un seuil pour une fenêtre de nouveau test spécifique.

Pour en savoir plus, consultez Créer des règles d'alerte basées sur les métriques et Créer des règles d'alerte à l'aide de l'API

Vous avez besoin d'une règle d'alerte qui envoie une notification lorsque la réponse la latence est supérieure ou égale à 500 ms pendant cinq tests de disponibilité consécutifs qui durent plus de 10 minutes.

Condition d'absence de métrique

Les conditions d'absence de métrique sont remplies lorsqu'une série temporelle surveillée ne comporte aucun des données pour une fenêtre de nouveau test spécifique. La période maximale de nouvelle analyse est de 23,5 heures.

Pour en savoir plus, consultez Créer des règles d'alerte en cas d'absence de métrique et créer des règles d'alerte à l'aide de l'API

Vous voulez une règle d'alerte qui ouvre un incident avec votre équipe d'assistance lorsqu'une ressource ne répond à aucune requête HTTP via en cinq minutes.

Condition de valeur de métrique prévue

Les conditions de valeur de métrique prévue sont remplies lorsque la règle d'alerte prévoit que le seuil sera dépassé au cours de la prochaine fenêtre de prévision. La période de prévision peut aller de 1 heure à 7 jours.

Pour en savoir plus, consultez les pages Créer des règles d'alerte basées sur la valeur prévue d'une métrique et Créer des règles d'alerte à l'aide de l'API.

Vous voulez une règle d'alerte qui ouvre un incident avec votre équipe d'assistance équipe lorsqu'une ressource est susceptible d'utiliser 80% de l'espace disque dans les prochaines 24 heures.

Surveiller les données des entrée de journal

Pour surveiller des entrées de journal individuelles, utilisez une règle d'alerte basée sur les journaux. Une condition d'une règle d'alerte basée sur les journaux est remplie lorsque l'alerte La stratégie détecte qu'une expression d'une entrée de journal aux critères de la règle d'alerte. Par exemple, vous voulez qu'une règle d'alerte qui ouvre un incident avec votre assistance équipe lorsque l'message d'une entrée de journal contient product_ids=['tier_1_support', 'tier_2_support'].

Pour en savoir plus, consultez Configurer des règles d'alerte basées sur les journaux dans la Documentation de Logging.

Surveiller les résultats des requêtes SQL

Pour surveiller les résultats des requêtes SQL, utilisez une règle d'alerte basée sur SQL. La condition d'une règle d'alerte basée sur SQL analyse périodiquement vos données d'entrée de journal, puis créer des incidents lorsque la table des résultats de la requête répond à certains critères. Ce type de règle d'alerte est utile lorsque vous avez besoin d'une règle d'alerte qui surveille les agrégations de données ou les modèles complexes sur plusieurs entrées de journal. Par exemple, vous souhaitez recevoir une notification pour plus de 50 entrées de journal au cours des 60 dernières minutes sont associées au niveau de gravité WARNING.

Pour en savoir plus, consultez la section Surveiller les résultats de vos requêtes SQL à l'aide d'une règle d'alerte dans la documentation sur la journalisation.

Composants des règles d'alerte

Chaque règle d'alerte se compose des éléments suivants:

Une condition qui décrit quand une ressource ou un groupe ressources, est dans un état qui nécessite une réponse de votre part. La condition la source de données, un seuil statique ou dynamique et l'agrégation des données comme les filtres et groupby. Vos conditions peuvent surveiller une seule métrique, plusieurs métriques ou un ratio de métriques. Vous pouvez également utiliser le langage de requête Prometheus (PromQL) pour inclure des expressions complexes telles que des seuils dynamiques et une logique conditionnelle.

Si vous utilisez une intégration pour activer une règle d'alerte recommandée, la condition de la règle d'alerte est préremplie.
Une liste de canaux de notification décrivant qui avertir lorsque l'action est obligatoire. Pour en savoir plus, consultez la page Créer et gérer des canaux de notification.
Documentation qui apparaît dans les notifications et les pages d'incidents. Toi configurer l'objet d'une notification et vous pouvez ajouter des informations utiles dans le corps de la notification. Par exemple : peut configurer la notification pour afficher des liens vers des playbooks internes ou aux pages Google Cloud, comme les tableaux de bord personnalisés. Pour en savoir plus sur la documentation, y compris des exemples, consultez la section Annoter les incidents avec une documentation définie par l'utilisateur.

Langages de requête

Utilisez des langages de requête et des filtres dans vos règles d'alerte pour obtenir de mieux contrôler l'évaluation des métriques. Surveillance est compatible avec les types de requêtes suivants:

Le langage de requête Prometheus (PromQL) est un langage de requête fonctionnel utilisé pour évaluer les données de séries temporelles en temps réel. Vous pouvez configurer des règles d'alerte pour inclure une requête PromQL dans leurs conditions. Vos requêtes PromQL peuvent utiliser n'importe quelle expression valide, comme des combinaisons de métriques, des ratios et des seuils de mise à l'échelle. En configurant des règles d'alerte avec une condition basée sur PromQL dans Google Cloud, vous pouvez réduire les dépendances vis-à-vis de l'infrastructure d'alerte externe. Pour en savoir plus, consultez les pages PromQL dans Cloud Monitoring et Règles d'alerte avec PromQL.
Les filtres de surveillance vous permettent de configurer des règles d'alerte pour utiliser des ratios de métriques basés sur des filtres. Basée sur des filtres les règles d'alerte ne peuvent pas être affichées ni modifiées dans la console Google Cloud. Pour obtenir un exemple de règle qui utilise des filtres de surveillance, consultez la section Ratio de métriques.
Le langage MQL (Monitoring Query Language) est une interface textuelle expressive qui vous permet de récupérer, de filtrer et de manipuler des données de séries temporelles. Vous pouvez créer des règles d'alerte avec des conditions qui incluent : une opération d'alerte Monitoring Query Language. Pour en savoir plus, consultez la présentation du langage MQL et la section Règles d'alerte avec MQL.

Annonce : À partir du 22 octobre 2024, le langage de requête MQL (Monitoring Query Language) ne sera plus recommandé pour Cloud Monitoring. Certaines fonctions d'utilisabilité mais vous pouvez toujours exécuter des requêtes MQL dans l'explorateur de métriques, et les tableaux de bord et règles d'alerte utilisant MQL travail. Pour en savoir plus, consultez l'avis de suppression de MQL.

Gérer les règles d'alerte et les incidents

Une fois une règle d'alerte activée, Monitoring surveille en permanence les conditions de cette règle. Vous ne pouvez pas configurer la règle d'alerte pour surveiller les conditions uniquement pendant certaines périodes. Si vous voulez désactiver la règle d'alerte pour une période donnée, puis créez répéter.

Si un incident est ouvert et que Monitoring détermine que les conditions de la règle basée sur les métriques ne sont plus remplies, alors Monitoring clôture automatiquement l'incident et envoie une une notification concernant la route fermée.

Tarifs

En général, les métriques système de Cloud Monitoring sont gratuites, et les métriques des systèmes, agents ou applications externes. Les métriques facturables sont facturées en fonction du nombre d'octets ou du nombre d'échantillons ingérés.

Pour en savoir plus sur les tarifs de Cloud Monitoring, consultez les documents suivants:

Pour savoir comment surveiller le nombre de plages de suivi ou de journaux ingérés, ou pour savoir comment être averti lorsqu'un contenu spécifique est inclus dans une entrée de journal, consultez les documents suivants :

Étape suivante

Pour en savoir plus sur la latence des notifications et l'incidence des choix de paramètres d'une règle d'alerte sur l'envoi des notifications, consultez la page Comportement des règles d'alerte basées sur les métriques.
Pour obtenir la liste d'exemples de règles basées sur les métriques, consultez Résumé d'exemples de règles d'alerte