Os alertas ajudam a manter-se informado sobre o estado e o desempenho das suas implementações com isolamento de rede. Envia notificações atempadas quando são cumpridas condições específicas, o que lhe permite fazer o seguinte:
- Resolva problemas de forma proativa: detete e responda a problemas antes que afetem os utilizadores ou as operações empresariais.
- Reduza o tempo de inatividade: minimize as interrupções do serviço tomando medidas corretivas rapidamente.
- Mantenha os níveis de serviço: certifique-se de que as suas aplicações cumprem os objetivos de desempenho e disponibilidade.
- Obtenha estatísticas operacionais: identifique tendências e padrões no seu ambiente para otimizar a utilização de recursos e o desempenho.
Esta página oferece uma vista geral da criação e gestão de alertas em ambientes isolados do Google Distributed Cloud (GDC). Explica como usar os dados de monitorização para identificar e responder proativamente a eventos críticos nas suas aplicações e infraestrutura.
Tipos de políticas de alerta
As políticas de alerta baseadas em métricas monitorizam os dados de monitorização e notificam pessoas específicas quando um recurso cumpre uma condição pré-estabelecida. Por exemplo, uma política de alerta que monitoriza a utilização da CPU de uma máquina virtual pode enviar uma notificação quando um evento ativa a política. Em alternativa, uma política que monitoriza uma verificação de tempo de atividade pode enviar uma notificação às equipas de desenvolvimento e de intervenção.
Por outro lado, para monitorizar eventos recorrentes nos seus registos ao longo do tempo, use métricas baseadas em registos para criar políticas de alerta. As métricas baseadas em registos geram dados numéricos a partir de dados de registo. As métricas baseadas em registos são adequadas quando quer fazer qualquer uma das seguintes ações:
- Contar as ocorrências de mensagens nos seus registos, como um aviso ou um erro. Receber uma notificação quando o número de eventos ultrapassa um limite.
- Observe as tendências nos seus dados, como os valores de latência nos registos. Receber uma notificação se os valores mudarem de forma inaceitável.
- Crie gráficos para apresentar os dados numéricos extraídos dos seus registos.
No GDC, os alertas podem gerar páginas e pedidos para erros críticos. As páginas requerem atenção imediata de um operador, enquanto os pedidos são menos urgentes.
Componentes principais
O serviço de alertas do GDC usa os seguintes componentes:
- Prometheus: um sistema de monitorização de código aberto amplamente usado para recolher e armazenar métricas. Fornece uma linguagem de consulta avançada (PromQL) para definir regras de alerta.
- Plataforma de monitorização: um serviço de monitorização gerido que recolhe métricas de várias origens, incluindo o Prometheus. Oferece funcionalidades avançadas, como painéis de controlo do Grafana, métricas personalizadas e alertas.
- Alertmanager: um componente responsável por receber, processar e encaminhar alertas. Suporta o agrupamento, a desativação do som e a inibição de alertas para reduzir o ruído e melhorar a eficiência.
Fluxo de trabalho de alertas
O GDC oferece uma estrutura de alertas que se integra com várias ferramentas e serviços de monitorização. O fluxo de trabalho típico envolve as seguintes fases:
- Recolha de dados: use ferramentas como o Prometheus e o Fluent Bit para recolher métricas e registos das suas aplicações, infraestrutura e Kubernetes.
- Monitorização: armazene e visualize os dados recolhidos em painéis de controlo do Grafana.
- Regras de alerta: defina regras de alerta com base em condições específicas, como a utilização da CPU exceder um limite ou os erros da aplicação excederem uma determinada taxa.
- Alertmanager: o Alertmanager recebe alertas acionados pelas regras definidas e processa o encaminhamento e a desativação de notificações.
- Notificações: receba alertas através de vários canais, como email, mensagens ou webhooks.
Práticas recomendadas
Quando configurar alertas, considere as seguintes práticas recomendadas:
- Defina alertas claros e acionáveis: certifique-se de que os alertas fornecem informações específicas sobre o problema e sugerem ações adequadas.
- Defina níveis de gravidade adequados: categorize os alertas com base no respetivo impacto e urgência para dar prioridade aos esforços de resposta.
- Evite a fadiga de alertas: ajuste as regras de alerta para minimizar os falsos positivos e as notificações desnecessárias.
- Teste os seus alertas regularmente: verifique se os alertas são acionados corretamente e se as notificações são entregues conforme esperado.
- Documente a sua estratégia de alertas: documente as regras de alerta, os canais de notificação e os procedimentos de encaminhamento.