É possível criar políticas de alertas nos objetivos de nível de serviço (SLOs, na sigla em inglês) para informar se você corre o risco de violar um SLO. Você seleciona o SLO que quer monitorar e, em seguida, configura uma política de alertas para monitorar esse SLO. A condição normalmente é expressa pela seleção de um valor limite que constitui uma violação e um período em que a violação é permitida. Se o limite for excedido por um período superior ao permitido, a política de alertas será acionada.
Nesta página, descrevemos como alertar a taxa de gravação do seu erro de orçamento. Ela não abrange políticas de alerta em detalhes, pois espera-se que já conheça os conceitos básicos de condições e canais de notificação.
Para ver informações gerais sobre políticas de alertas e como criá-las, leia Como usar políticas de alertas.
Para ver etapas específicas sobre a criação de uma política de alertas baseada em SLO, consulte:
- Como criar uma política de alertas usando o console do Google Cloud.
- Como criar uma política de alertas usando a API Cloud Monitoring.
Taxa de gravação do erro de orçamento
O erro de orçamento de um período de conformidade é (1 - meta de SLO) × (eventos qualificados no período de conformidade). Se sua meta de SLO for 95%, será aceitável que 5% dos eventos medidos pelo SLI falhem antes que a meta deixe de ser alcançada.
A taxa de consumo informa a rapidez com que você está consumindo a margem de erro em um período de conformidade. A taxa de consumo depende do número de eventos qualificados e do número de eventos de erro recebidos no período de conformidade. Por exemplo, se não houver eventos de erro, o erro de orçamento não vai ser consumido e a taxa de consumo será zero. Para um exemplo que ilustra como é possível calcular o tempo máximo de inatividade de um serviço, supondo que todas as solicitações falhem, consulte Taxa de uso do SLO.
A métrica da taxa de consumo é normalizada de modo que uma taxa de consumo maior que um indique que, se a taxa de erro medida for mantida durante qualquer período de conformidade futuro, o serviço ficará fora do SLO. período. Para ver mais informações, leia Erros de orçamento..
A métrica da taxa de gravação é recuperada pelo seletor de séries temporais select_slo_burn_rate
. Uma política de alertas de taxa de gravação notifica você quando seu erro de orçamento é consumido mais rapidamente do que um limite definido, medido durante o período de conformidade do alerta. Há outros seletores de série temporal. Leia Recuperação de dados SLO para ver mais informações.
É possível criar políticas de alertas que usem alguns desses outros seletores de série temporal, mas você precisa criá-las usando a API Cloud Monitoring.
Visão geral da criação de uma política de alertas em um SLO
Criar uma política de alertas para um SLO é semelhante a criar uma política de alertas para métricas. Esta seção analisa as etapas gerais para criar uma política de alertas.
Para criar políticas de alertas para um SLO, siga estas etapas:
Identifique o SLO em que você quer basear a política de alertas.
Construa uma condição para a política de alertas que usa o SLO selecionado. Na condição, você especifica um seletor de séries temporais a ser usado para recuperar dados do SLO. Você também especifica uma duração, um limite e uma comparação, que determinam quando o SLO está sem compliance.
Por exemplo, se você usar o seletor de série temporal para taxa de gravação, os dados recuperados refletirão a taxa de gravação do erro de orçamento para o SLO escolhido.
A condição também é onde se especifica o limite e a duração das violações do SLO antes de acionar alertas. Por exemplo, você quer que a taxa de gravação seja um pouco acima da taxa desejada por algum período antes de acionar um alerta. O valor para "some amount over" é o limite da condição, e o valor para "some period" é a duração da condição.
Identifique ou crie um canal de notificação para usar na política de alertas.
Apresente documentação que explique aos usuários o que acionou a política de alertas.
Para ver informações gerais sobre políticas de alertas e como criá-las, leia Como usar políticas de alertas.
Políticas de alerta e períodos de lookback
Ao recuperar os dados SLO de uma política de alertas, você especifica um identificador para o SLO e um período de lookback. O período de lookback determina o tempo de recuperação dos dados. Essencialmente, o período de lookback também é usado como período de conformidade para calcular o desempenho do SLO e o orçamento do erro.
Atualmente, não é possível basear alertas na taxa de consumo de orçamento de erro de um SLO usando um período de conformidade maior que 24 horas. Em muitos casos, aproximar o período de conformidade a longo prazo (por exemplo, 28 ou 30 dias) com uma duração inferior a 24 horas é suficiente para detectar interrupções e impulsionar a resposta operacional de curto prazo.
Períodos de conformidade mais curtos fornecem detecção mais rápida de problemas, mas com a ressalva de que grandes alterações no tráfego e nas taxas de erro ao longo de um dia resultam em alertas excessivamente confidenciais durante períodos de pouco tráfego. Use um limite de taxa de gravação significativamente maior que 1 para reduzir a confidencialidade do alerta durante esses períodos.
Tipos de alertas de erro de orçamento
Ao configurar políticas de alertas para monitorar seu erro de orçamento, é uma boa ideia configurar duas políticas de alertas relacionadas:
Alerta de gravação rápida, que avisa sobre uma grande mudança repentina no consumo que, se não for corrigida, esgota seu orçamento de erro muito em breve. "Com essa taxa, o orçamento de erro total do mês é registrado em dois dias."
Para um alerta de gravação rápida, use um período de lookback mais curto para ser notificado rapidamente se uma condição potencialmente desastrosa surgir e persistir, mesmo que brevemente. Se for realmente desastroso, você não vai querer esperar muito para notar.
O limite para a taxa de consumo que você alerta aqui é muito mais alto do que o ideal de linha de base para o período de tempo de lookback.
Alerta de gravação lenta, que avisa você sobre uma taxa de consumo que, se não for alterada, esgota seu orçamento de erro antes do final do período de conformidade. Esse tipo de condição é menos urgente do que uma condição de gravação rápida. "Estamos um pouco acima de onde gostaríamos de estar neste momento do mês, mas ainda não estamos em apuros."
Para um alerta de gravação lenta, use um período de lookback mais longo para suavizar variações no consumo a curto prazo.
O limite de alerta em uma gravação lenta é maior que o desempenho ideal para o período de lookback, mas não é significativamente mais alto. Uma política com base em um período de lookback mais curto com limite alto pode gerar muitos alertas, mesmo que os níveis de consumo de longo prazo acabem. Mas se o consumo permanecer alto demais por um período mais longo, ele consumirá todo o erro de orçamento.
Próximas etapas
- Para criar uma política de alertas baseada em SLO usando o Console do Google Cloud, consulte Como criar uma política de alertas (console do Cloud).
- Para criar uma política de alertas baseada em SLO usando a API Monitoring, consulte Como criar uma política de alertas (API).