Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Os alertas ajudam você a ficar informado sobre a integridade e a performance das suas implantações isoladas. Elas enviam notificações oportunas quando condições específicas são atendidas, permitindo que você faça o seguinte:
Resolva problemas de forma proativa: detecte e responda a problemas antes que eles afetem os usuários ou as operações comerciais.
Reduza o tempo de inatividade: minimize as interrupções de serviço tomando medidas corretivas rapidamente.
Manter níveis de serviço: garanta que seus aplicativos atendam às metas de desempenho e
disponibilidade.
Receba insights operacionais: identifique tendências e padrões no seu ambiente para otimizar a utilização e o desempenho dos recursos.
Nesta página, você encontra uma visão geral da criação e do gerenciamento de alertas em
ambientes de appliance isolados do Google Distributed Cloud (GDC). Ele explica como usar os dados de monitoramento para identificar e responder de forma proativa a eventos críticos nos seus aplicativos e infraestrutura.
Tipos de políticas de alertas
As políticas de alertas com base em métricas rastreiam dados de monitoramento e notificam pessoas específicas
quando um recurso atende a uma condição preestabelecida. Por exemplo, uma política de alertas que monitora a utilização da CPU de uma máquina virtual pode enviar uma notificação quando um evento a ativa. Como alternativa, uma política que monitora uma verificação de tempo de atividade pode notificar as equipes de desenvolvimento e de plantão.
Por outro lado, para monitorar eventos recorrentes nos registros ao longo do tempo, use
métricas com base em registros para criar políticas de alertas. As métricas com base em registros geram dados numéricos com base nos dados de registro. As métricas com base em registros são adequadas quando você quer fazer o seguinte:
Conte as ocorrências de mensagens nos seus registros, como um aviso ou erro. Receber uma notificação quando o número de eventos ultrapassar um limite.
Note as tendências nos dados, como os valores de latência nos registros. Receba uma notificação se os valores mudarem de maneira inaceitável.
Crie gráficos para exibir os dados numéricos extraídos dos registros.
No GDC, os alertas podem gerar páginas e tíquetes para erros críticos. As páginas exigem atenção imediata de um operador, enquanto os tíquetes são menos urgentes.
Principais componentes
O serviço de alertas do GDC usa os seguintes componentes:
Prometheus: um sistema de monitoramento de código aberto muito usado para coletar e armazenar métricas. Ele oferece uma linguagem de consulta eficiente (PromQL) para
definir regras de alerta.
Plataforma de monitoramento: um serviço de monitoramento gerenciado que coleta métricas de várias fontes, incluindo o Prometheus. Ele oferece recursos avançados, como painéis do Grafana, métricas personalizadas e alertas.
Alertmanager: um componente responsável por receber, processar e encaminhar alertas. Ele oferece suporte ao agrupamento, silenciamento e inibição de alertas para reduzir o ruído e melhorar a eficiência.
Fluxo de trabalho de alertas
O GDC oferece um framework de alertas que se integra a
várias ferramentas e serviços de monitoramento. O fluxo de trabalho típico envolve as seguintes etapas:
Coleta de dados: use ferramentas como Prometheus e Fluent Bit para coletar métricas e registros dos seus aplicativos, infraestrutura e Kubernetes.
Monitoring: armazene e visualize os dados coletados em painéis do Grafana.
Regras de alerta: defina regras de alerta com base em condições específicas, como o uso da CPU exceder um limite ou erros de aplicativo excederem uma determinada taxa.
Alertmanager: recebe alertas acionados pelas regras definidas e gerencia o encaminhamento e o silenciamento de notificações.
Notificações: receba alertas por vários canais, como e-mail,
mensagens ou webhooks.
Práticas recomendadas
Ao configurar alertas, considere as seguintes práticas recomendadas:
Defina alertas claros e úteis: garanta que eles forneçam informações específicas sobre o problema e sugiram ações adequadas.
Defina níveis de gravidade adequados: categorize os alertas com base no impacto
e na urgência para priorizar os esforços de resposta.
Evite o cansaço de alertas: ajuste as regras de alerta para minimizar falsos positivos e notificações desnecessárias.
Teste seus alertas regularmente: verifique se eles são acionados
corretamente e se as notificações são entregues como esperado.
Documente sua estratégia de alerta: documente suas regras de alerta, canais de
notificação e procedimentos de encaminhamento.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-04 UTC."],[],[],null,["# Alerting overview\n\nAlerts help you stay informed about the health and performance of your\nair-gapped deployments. They provide timely notifications when specific\nconditions are met, letting you do the following:\n\n- **Proactively address issues**: Detect and respond to problems before they impact users or business operations.\n- **Reduce downtime**: Minimize service disruptions by taking corrective action quickly.\n- **Maintain service levels**: Ensure your applications meet performance and availability targets.\n- **Gain operational insights**: Identify trends and patterns in your environment to optimize resource utilization and performance.\n\nThis page provides an overview of creating and managing alerts in\nGoogle Distributed Cloud (GDC) air-gapped appliance environments. It explains how to use monitoring\ndata to proactively identify and respond to critical events within your\napplications and infrastructure.\n\nAlerting policy types\n---------------------\n\nMetric-based alerting policies track monitoring data and notify specific people\nwhen a resource meets a pre-established condition. For example, an alerting\npolicy that monitors the CPU utilization of a virtual machine might send a\nnotification when an event activates the policy. Alternatively, a policy that\nmonitors an uptime check might notify on-call and development teams.\n\nOn the other hand, to monitor recurring events in your logs over time, use\nlog-based metrics to create alerting policies. Log-based metrics generate\nnumerical data from logging data. Log-based metrics are suitable when you want\nto do any of the following:\n\n- Count the message occurrences in your logs, like a warning or error. Receive a notification when the number of events crosses a threshold.\n- Observe trends in your data, like latency values in your logs. Receive a notification if the values change unacceptably.\n- Create charts to display the numeric data extracted from your logs.\n\nIn GDC, alerts can generate pages and tickets for\ncritical errors. Pages require immediate attention from an operator, while\ntickets are less urgent.\n\nKey components\n--------------\n\nThe GDC alerting service uses the following components:\n\n- **Prometheus**: An open-source monitoring system widely used for collecting and storing metrics. It provides a powerful query language (PromQL) for defining alert rules.\n- **Monitoring platform**: A managed monitoring service that collects metrics from various sources, including Prometheus. It offers advanced features like Grafana dashboards, custom metrics, and alerting.\n- **Alertmanager**: A component responsible for receiving, processing, and routing alerts. It supports grouping, silencing, and inhibiting alerts to reduce noise and improve efficiency.\n\nAlerting workflow\n-----------------\n\nGDC provides an alerting framework that integrates with\nvarious monitoring tools and services. The typical workflow involves the\nfollowing stages:\n\n1. **Data collection**: Use tools like Prometheus and Fluent Bit to collect metrics and logs from your applications, infrastructure, and Kubernetes.\n2. **Monitoring**: Store and visualize the collected data in Grafana dashboards.\n3. **Alerting rules**: Define alert rules based on specific conditions, such as CPU usage exceeding a threshold or application errors exceeding a certain rate.\n4. **Alertmanager**: Alertmanager receives alerts triggered by the defined rules and handles notification routing and silencing.\n5. **Notifications**: Receive alerts through various channels, such as email, messages, or webhooks.\n\nBest practices\n--------------\n\nWhen setting up alerts, consider the following best practices:\n\n- **Define clear and actionable alerts**: Ensure your alerts provide specific information about the issue and suggest appropriate actions.\n- **Set appropriate severity levels**: Categorize alerts based on their impact and urgency to prioritize response efforts.\n- **Avoid alert fatigue**: Fine-tune your alert rules to minimize false positives and unnecessary notifications.\n- **Test your alerts regularly**: Verify that your alerts are triggered correctly and notifications are delivered as expected.\n- **Document your alerting strategy**: Document your alert rules, notification channels, and escalation procedures."]]