Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Les alertes vous aident à rester informé sur l'état et les performances de vos déploiements isolés. Elles vous envoient des notifications en temps opportun lorsque des conditions spécifiques sont remplies, ce qui vous permet de faire ce qui suit :
Résolvez les problèmes de manière proactive : détectez-les et corrigez-les avant qu'ils n'affectent les utilisateurs ou vos activités.
Réduisez les temps d'arrêt : minimisez les interruptions de service en prenant rapidement des mesures correctives.
Maintenir les niveaux de service : assurez-vous que vos applications respectent les objectifs de performances et de disponibilité.
Obtenez des insights opérationnels : identifiez les tendances et les modèles dans votre environnement pour optimiser l'utilisation des ressources et les performances.
Cette page explique comment créer et gérer des alertes dans les environnements d'appliance Google Distributed Cloud (GDC) isolés. Il explique comment utiliser les données de surveillance pour identifier de manière proactive les événements critiques dans vos applications et votre infrastructure, et y répondre.
Types de règles d'alerte
Les règles d'alerte basées sur des métriques suivent les données de surveillance et avertissent des personnes spécifiques lorsqu'une ressource remplit une condition prédéfinie. Par exemple, une règle d'alerte qui surveille l'utilisation du processeur d'une machine virtuelle peut envoyer une notification lorsqu'un événement active la règle. Une règle qui surveille un test de disponibilité peut également envoyer des notifications aux équipes de développement et d'astreinte.
En revanche, pour surveiller les événements récurrents dans vos journaux au fil du temps, utilisez des métriques basées sur les journaux pour créer des règles d'alerte. Les métriques basées sur les journaux génèrent des données numériques à partir des données de journalisation. Les métriques basées sur les journaux sont adaptées si vous souhaitez effectuer l'une des opérations suivantes :
Comptez les occurrences d'un message dans vos journaux, par exemple un avertissement ou une erreur. Recevez une notification lorsque le nombre d'événements dépasse un certain seuil.
Observer les tendances qui se dessinent dans vos données, par exemple les valeurs de latence dans les journaux. Recevez une notification si les valeurs changent de manière inacceptable.
Créez des graphiques affichant les données numériques extraites de vos journaux.
Dans GDC, les alertes peuvent générer des pages et des tickets pour les erreurs critiques. Les pages nécessitent une attention immédiate de la part d'un opérateur, tandis que les demandes sont moins urgentes.
Composants clés
Le service d'alerte GDC utilise les composants suivants :
Prometheus : système de surveillance Open Source largement utilisé pour collecter et stocker des métriques. Il fournit un langage de requête puissant (PromQL) pour définir des règles d'alerte.
Plate-forme de surveillance : service de surveillance géré qui collecte des métriques provenant de diverses sources, y compris Prometheus. Il offre des fonctionnalités avancées telles que des tableaux de bord Grafana, des métriques personnalisées et des alertes.
Alertmanager : composant chargé de recevoir, de traiter et de router les alertes. Il permet de regrouper, de désactiver et d'inhiber les alertes pour réduire le bruit et améliorer l'efficacité.
Workflow d'alerte
GDC fournit un framework d'alertes qui s'intègre à divers outils et services de surveillance. Le workflow type comprend les étapes suivantes :
Collecte de données : utilisez des outils tels que Prometheus et Fluent Bit pour collecter les métriques et les journaux de vos applications, de votre infrastructure et de Kubernetes.
Monitoring : stockez et visualisez les données collectées dans les tableaux de bord Grafana.
Règles d'alerte : définissez des règles d'alerte basées sur des conditions spécifiques, par exemple lorsque l'utilisation du processeur dépasse un seuil ou que les erreurs d'application dépassent un certain taux.
Alertmanager : Alertmanager reçoit les alertes déclenchées par les règles définies et gère l'acheminement et la désactivation des notifications.
Notifications : recevez des alertes via différents canaux, comme les e-mails, les messages ou les webhooks.
Bonnes pratiques
Lorsque vous configurez des alertes, tenez compte des bonnes pratiques suivantes :
Définissez des alertes claires et exploitables : assurez-vous que vos alertes fournissent des informations spécifiques sur le problème et suggèrent des actions appropriées.
Définissez des niveaux de gravité appropriés : classez les alertes en fonction de leur impact et de leur urgence pour hiérarchiser les efforts de réponse.
Évitez la lassitude des alertes : ajustez vos règles d'alerte pour minimiser les faux positifs et les notifications inutiles.
Testez régulièrement vos alertes : vérifiez qu'elles se déclenchent correctement et que les notifications sont envoyées comme prévu.
Documentez votre stratégie d'alerte : documentez vos règles d'alerte, vos canaux de notification et vos procédures d'escalade.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[],[],null,["# Alerting overview\n\nAlerts help you stay informed about the health and performance of your\nair-gapped deployments. They provide timely notifications when specific\nconditions are met, letting you do the following:\n\n- **Proactively address issues**: Detect and respond to problems before they impact users or business operations.\n- **Reduce downtime**: Minimize service disruptions by taking corrective action quickly.\n- **Maintain service levels**: Ensure your applications meet performance and availability targets.\n- **Gain operational insights**: Identify trends and patterns in your environment to optimize resource utilization and performance.\n\nThis page provides an overview of creating and managing alerts in\nGoogle Distributed Cloud (GDC) air-gapped appliance environments. It explains how to use monitoring\ndata to proactively identify and respond to critical events within your\napplications and infrastructure.\n\nAlerting policy types\n---------------------\n\nMetric-based alerting policies track monitoring data and notify specific people\nwhen a resource meets a pre-established condition. For example, an alerting\npolicy that monitors the CPU utilization of a virtual machine might send a\nnotification when an event activates the policy. Alternatively, a policy that\nmonitors an uptime check might notify on-call and development teams.\n\nOn the other hand, to monitor recurring events in your logs over time, use\nlog-based metrics to create alerting policies. Log-based metrics generate\nnumerical data from logging data. Log-based metrics are suitable when you want\nto do any of the following:\n\n- Count the message occurrences in your logs, like a warning or error. Receive a notification when the number of events crosses a threshold.\n- Observe trends in your data, like latency values in your logs. Receive a notification if the values change unacceptably.\n- Create charts to display the numeric data extracted from your logs.\n\nIn GDC, alerts can generate pages and tickets for\ncritical errors. Pages require immediate attention from an operator, while\ntickets are less urgent.\n\nKey components\n--------------\n\nThe GDC alerting service uses the following components:\n\n- **Prometheus**: An open-source monitoring system widely used for collecting and storing metrics. It provides a powerful query language (PromQL) for defining alert rules.\n- **Monitoring platform**: A managed monitoring service that collects metrics from various sources, including Prometheus. It offers advanced features like Grafana dashboards, custom metrics, and alerting.\n- **Alertmanager**: A component responsible for receiving, processing, and routing alerts. It supports grouping, silencing, and inhibiting alerts to reduce noise and improve efficiency.\n\nAlerting workflow\n-----------------\n\nGDC provides an alerting framework that integrates with\nvarious monitoring tools and services. The typical workflow involves the\nfollowing stages:\n\n1. **Data collection**: Use tools like Prometheus and Fluent Bit to collect metrics and logs from your applications, infrastructure, and Kubernetes.\n2. **Monitoring**: Store and visualize the collected data in Grafana dashboards.\n3. **Alerting rules**: Define alert rules based on specific conditions, such as CPU usage exceeding a threshold or application errors exceeding a certain rate.\n4. **Alertmanager**: Alertmanager receives alerts triggered by the defined rules and handles notification routing and silencing.\n5. **Notifications**: Receive alerts through various channels, such as email, messages, or webhooks.\n\nBest practices\n--------------\n\nWhen setting up alerts, consider the following best practices:\n\n- **Define clear and actionable alerts**: Ensure your alerts provide specific information about the issue and suggest appropriate actions.\n- **Set appropriate severity levels**: Categorize alerts based on their impact and urgency to prioritize response efforts.\n- **Avoid alert fatigue**: Fine-tune your alert rules to minimize false positives and unnecessary notifications.\n- **Test your alerts regularly**: Verify that your alerts are triggered correctly and notifications are delivered as expected.\n- **Document your alerting strategy**: Document your alert rules, notification channels, and escalation procedures."]]