Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Gli avvisi ti aiutano a rimanere informato sull'integrità e sul rendimento delle tue implementazioni air-gap. Forniscono notifiche tempestive quando vengono soddisfatte condizioni specifiche, consentendoti di:
Risolvi i problemi in modo proattivo: rileva e risolvi i problemi prima che
influenzino gli utenti o le operazioni aziendali.
Ridurre i tempi di inattività: riduci al minimo le interruzioni del servizio intervenendo rapidamente.
Mantieni i livelli di servizio: assicurati che le tue applicazioni soddisfino i target di prestazioni e disponibilità.
Ottieni approfondimenti operativi: identifica tendenze e pattern nel tuo
ambiente per ottimizzare l'utilizzo e il rendimento delle risorse.
Questa pagina fornisce una panoramica della creazione e della gestione degli avvisi negli ambienti air-gap di Google Distributed Cloud (GDC). Spiega come utilizzare i dati di monitoraggio per identificare e rispondere in modo proattivo agli eventi critici all'interno delle applicazioni e dell'infrastruttura.
Tipi di criteri di avviso
I criteri di avviso basati su metriche monitorano i dati di monitoraggio e inviano una notifica a persone specifiche
quando una risorsa soddisfa una condizione prestabilita. Ad esempio, un criterio di avviso
che monitora l'utilizzo della CPU di una macchina virtuale potrebbe inviare una
notifica quando un evento attiva il criterio. In alternativa, un criterio che monitora un controllo di uptime potrebbe inviare una notifica ai team di sviluppo e di reperibilità.
D'altra parte, per monitorare gli eventi ricorrenti nei log nel tempo, utilizza le metriche basate su log per creare policy di avviso. Le metriche basate su log generano dati numerici dai dati di logging. Le metriche basate su log sono adatte quando vuoi
eseguire una delle seguenti operazioni:
Conta le occorrenze del messaggio nei log, ad esempio un avviso o un errore. Ricevi
una notifica quando il numero di eventi supera una soglia.
Osserva le tendenze nei tuoi dati, ad esempio i valori di latenza nei log. Ricevi una
notifica se i valori cambiano in modo inaccettabile.
Crea grafici per visualizzare i dati numerici estratti dai log.
In GDC, gli avvisi possono generare pagine e ticket per
gli errori critici. Le pagine richiedono l'attenzione immediata di un operatore, mentre
i ticket sono meno urgenti.
Componenti chiave
Il servizio di avvisi GDC utilizza i seguenti componenti:
Prometheus: un sistema di monitoraggio open source ampiamente utilizzato per la raccolta e l'archiviazione delle metriche. Fornisce un potente linguaggio di query (PromQL) per
definire le regole di avviso.
Piattaforma di monitoraggio: un servizio di monitoraggio gestito che raccoglie metriche
da varie origini, tra cui Prometheus. Offre funzionalità avanzate come
dashboard Grafana, metriche personalizzate e avvisi.
Alertmanager: un componente responsabile della ricezione, dell'elaborazione e
dell'instradamento degli avvisi. Supporta il raggruppamento, la disattivazione e l'inibizione degli avvisi per
ridurre il rumore e migliorare l'efficienza.
Flusso di lavoro di avviso
GDC fornisce un framework di avvisi che si integra con
vari strumenti e servizi di monitoraggio. Il workflow tipico prevede le seguenti fasi:
Raccolta dei dati: utilizza strumenti come Prometheus e Fluent Bit per raccogliere metriche e log da applicazioni, infrastruttura e Kubernetes.
Monitoraggio: archivia e visualizza i dati raccolti nelle dashboard di Grafana.
Regole di avviso: definisci regole di avviso in base a condizioni specifiche, ad esempio
l'utilizzo della CPU che supera una soglia o gli errori dell'applicazione che superano una determinata
frequenza.
Alertmanager: Alertmanager riceve gli avvisi attivati dalle regole definite e gestisce il routing e la disattivazione delle notifiche.
Notifiche: ricevi avvisi tramite vari canali, come email,
messaggi o webhook.
Best practice
Quando configuri gli avvisi, tieni presente le seguenti best practice:
Definisci avvisi chiari e strategici: assicurati che gli avvisi forniscano informazioni specifiche sul problema e suggeriscano azioni appropriate.
Imposta livelli di gravità appropriati: classifica gli avvisi in base al loro impatto
e alla loro urgenza per dare la priorità alle azioni di risposta.
Evita l'affaticamento da avvisi: perfeziona le regole di avviso per ridurre al minimo i falsi positivi e le notifiche non necessarie.
Testa regolarmente gli avvisi: verifica che gli avvisi vengano attivati
correttamente e che le notifiche vengano recapitate come previsto.
Documenta la tua strategia di avviso: documenta le regole di avviso, i canali di notifica e le procedure di riassegnazione.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-04 UTC."],[[["\u003cp\u003eAlerts in Google Distributed Cloud (GDC) air-gapped environments provide notifications on the health and performance of deployments, enabling proactive issue resolution and reduced downtime.\u003c/p\u003e\n"],["\u003cp\u003eMetric-based alerting policies track monitoring data, triggering notifications when a resource meets a pre-established condition, while log-based metrics monitor recurring events in logs.\u003c/p\u003e\n"],["\u003cp\u003eThe GDC alerting service integrates Prometheus for metrics collection, a monitoring platform for data visualization, and Alertmanager for alert processing and routing.\u003c/p\u003e\n"],["\u003cp\u003eThe alerting workflow involves data collection, monitoring, defining alert rules, alert processing by Alertmanager, and receiving notifications through various channels.\u003c/p\u003e\n"],["\u003cp\u003eBest practices for setting up alerts include defining clear, actionable alerts, setting appropriate severity levels, minimizing false positives, regularly testing alerts, and documenting the alerting strategy.\u003c/p\u003e\n"]]],[],null,["# Alerting overview\n\nAlerts help you stay informed about the health and performance of your\nair-gapped deployments. They provide timely notifications when specific\nconditions are met, letting you do the following:\n\n- **Proactively address issues**: Detect and respond to problems before they impact users or business operations.\n- **Reduce downtime**: Minimize service disruptions by taking corrective action quickly.\n- **Maintain service levels**: Ensure your applications meet performance and availability targets.\n- **Gain operational insights**: Identify trends and patterns in your environment to optimize resource utilization and performance.\n\nThis page provides an overview of creating and managing alerts in\nGoogle Distributed Cloud (GDC) air-gapped environments. It explains how to use monitoring\ndata to proactively identify and respond to critical events within your\napplications and infrastructure.\n\nAlerting policy types\n---------------------\n\nMetric-based alerting policies track monitoring data and notify specific people\nwhen a resource meets a pre-established condition. For example, an alerting\npolicy that monitors the CPU utilization of a virtual machine might send a\nnotification when an event activates the policy. Alternatively, a policy that\nmonitors an uptime check might notify on-call and development teams.\n\nOn the other hand, to monitor recurring events in your logs over time, use\nlog-based metrics to create alerting policies. Log-based metrics generate\nnumerical data from logging data. Log-based metrics are suitable when you want\nto do any of the following:\n\n- Count the message occurrences in your logs, like a warning or error. Receive a notification when the number of events crosses a threshold.\n- Observe trends in your data, like latency values in your logs. Receive a notification if the values change unacceptably.\n- Create charts to display the numeric data extracted from your logs.\n\nIn GDC, alerts can generate pages and tickets for\ncritical errors. Pages require immediate attention from an operator, while\ntickets are less urgent.\n\nKey components\n--------------\n\nThe GDC alerting service uses the following components:\n\n- **Prometheus**: An open-source monitoring system widely used for collecting and storing metrics. It provides a powerful query language (PromQL) for defining alert rules.\n- **Monitoring platform**: A managed monitoring service that collects metrics from various sources, including Prometheus. It offers advanced features like Grafana dashboards, custom metrics, and alerting.\n- **Alertmanager**: A component responsible for receiving, processing, and routing alerts. It supports grouping, silencing, and inhibiting alerts to reduce noise and improve efficiency.\n\nAlerting workflow\n-----------------\n\nGDC provides an alerting framework that integrates with\nvarious monitoring tools and services. The typical workflow involves the\nfollowing stages:\n\n1. **Data collection**: Use tools like Prometheus and Fluent Bit to collect metrics and logs from your applications, infrastructure, and Kubernetes.\n2. **Monitoring**: Store and visualize the collected data in Grafana dashboards.\n3. **Alerting rules**: Define alert rules based on specific conditions, such as CPU usage exceeding a threshold or application errors exceeding a certain rate.\n4. **Alertmanager**: Alertmanager receives alerts triggered by the defined rules and handles notification routing and silencing.\n5. **Notifications**: Receive alerts through various channels, such as email, messages, or webhooks.\n\nBest practices\n--------------\n\nWhen setting up alerts, consider the following best practices:\n\n- **Define clear and actionable alerts**: Ensure your alerts provide specific information about the issue and suggest appropriate actions.\n- **Set appropriate severity levels**: Categorize alerts based on their impact and urgency to prioritize response efforts.\n- **Avoid alert fatigue**: Fine-tune your alert rules to minimize false positives and unnecessary notifications.\n- **Test your alerts regularly**: Verify that your alerts are triggered correctly and notifications are delivered as expected.\n- **Document your alerting strategy**: Document your alert rules, notification channels, and escalation procedures."]]