Neste documento, no framework de arquitetura do Google Cloud, você encontra princípios operacionais para criar alertas que ajudam a executar serviços confiáveis. Quanto mais informações você tiver sobre o desempenho do serviço, mais informadas serão suas decisões diante de um problema. Projete seus alertas para detecção precoce e precisa de todos os problemas do sistema que afetam o usuário e minimize os falsos positivos.
Otimizar o atraso do alerta
Existe um equilíbrio entre alertas enviados muito cedo e que estressam a equipe de operações e os alertas que são enviados muito atrasados e causam longas interrupções de serviço. Ajuste o atraso do alerta antes que o sistema de monitoramento notifique as pessoas sobre um problema para minimizar o tempo de detecção e, ao mesmo tempo, maximizar o sinal versus ruído. Use a taxa de consumo de margem de erro para derivar a configuração de alerta ideal.
Alertar sobre sintomas e em vez de causas
Acione alertas com base no impacto direto na experiência do usuário. A não conformidade com SLOs globais ou por cliente indica um impacto direto. Evite alertar sobre todas as causas possíveis de uma falha, especialmente quando o impacto for limitado a uma única réplica. Um sistema distribuído bem projetado se recupera perfeitamente de falhas de réplica única.
Alerta sobre valores atípicos em vez de médias
Ao monitorar a latência, defina SLOs e defina alertas para (duas em cada três) latências entre 90o, 95o ou 99o percentil, não para latência média ou 50o percentil. Bons valores de latência média ou mediana podem ocultar valores altas ao 90o percentil ou acima deles, o que causa experiências muito ruins para os usuários. Portanto, aplique esse princípio para alertar sobre valores atípicos ao monitorar a latência de qualquer operação crítica, como uma interação de solicitação/resposta com um servidor da Web, conclusão em lote em um pipeline de processamento de dados ou uma leitura ou gravação em um serviço de armazenamento.