Tipos de políticas de alertas

Esta página descreve diferentes tipos de políticas de alerta, já que elas são representadas pelo Console do Google Cloud ou pela API Cloud Monitoring. Nele, são fornecidos exemplos JSON para esses políticas. Se você estiver interessado em políticas de alerta criadas usando a Linguagem de consulta de monitoramento (MQL, na sigla em inglês), consulte Políticas de alertas com MQL.

Uma política de alertas define condições, e essas condições são baseadas em métricas. Uma condição de política de alertas pode monitorar, por exemplo, se uma métrica atinge um valor ou se uma métrica começa a mudar rapidamente. As métricas são associadas a recursos e medem algumas características desse recurso, por exemplo, a utilização média da CPU em um grupo de VMs. Para mais informações sobre métricas, consulte Métricas, séries temporais e recursos.

Todas as condições consideram três fatores: algumas métricas que se comportam de um jeito determinado por um período.

Todas as condições são implementadas como um de dois tipos gerais: uma condição de ausência de métrica ou uma condição de limite de métrica.

Condição de ausência de métrica

Uma condição de ausência de métrica será acionada se alguma série temporal na métrica não tiver dados para uma janela de duração específica.

As condições de ausência de métrica exigem pelo menos uma medição bem-sucedida, uma que recupere dados, dentro do período máximo de duração após a instalação ou modificação da política. A janela de duração máxima configurável é de 24 horas se você usar o Console do Google Cloud e 24,5 horas se usar a API Cloud Monitoring.

Por exemplo, vamos supor que você defina a janela de duração em uma política de ausência de métrica como 30 minutos. A condição não será atendida se o subsistema que grava dados de métrica nunca tiver gravado um ponto de dados. O subsistema precisa produzir pelo menos um ponto de dados e, em seguida, deixar de produzir pontos de dados adicionais por 30 minutos.

Se estiver usando a API Monitoring, é possível criar uma condição que será acionada somente quando todas as séries temporais estiverem ausentes, agregando a série temporal em uma única série temporal usando aggregations; veja o MetricAbsence na documentação da API.

Condição de limite de métrica

A condição de limite de métrica é acionada se uma métrica ficar acima ou abaixo de um valor em uma janela de duração específica.

Dentro da classe dessas condições, há padrões que se enquadram em subcategorias gerais:

  • Taxa (porcentagem) de mudança de métrica: acionada se uma métrica aumentar ou diminuir em pelo menos um percentual específico ou mais em uma janela de duração.

    Nesse tipo de condição, um cálculo de porcentagem de mudança é aplicado à série temporal antes da comparação com o limite.

    A condição faz uma média dos valores da métrica nos últimos 10 minutos e, em seguida, compara o resultado com a média de 10 minutos que foi medida logo antes da janela de duração. A janela de lookback de 10 minutos usada por uma taxa de métrica de condição de mudança é um valor fixo: não é possível alterá-lo. No entanto, você especifica a janela de duração ao criar a condição.

  • Limite de agregação de grupo: acionado se uma métrica em um grupo de recursos ultrapassar um limite.

  • Integridade da verificação de tempo de atividade: acionada se você tiver criado uma verificação de tempo de atividade e o recurso deixar de responder com êxito a uma solicitação enviada de pelo menos dois locais geográficos.

    Os resultados das verificações de tempo de atividade são exibidos em vários lugares. No Console do Google Cloud, acesse Monitoring e selecione Visão geral ou Verificações de tempo de atividade. Ambas as janelas listam as verificações de tempo de atividade do projeto e listam o status da verificação. Para ver os detalhes de uma verificação de tempo de atividade específica, selecione o nome dela na lista. Ao criar uma política de alertas em uma verificação de tempo de atividade, é possível ter verificações que abram incidentes indiretamente e, como opção, enviem notificações quando eles falharem.

  • Integridade do processo: essas condições contam o número de processos em execução em uma instância de VM ou em um grupo de instâncias que correspondam a uma convenção de nomenclatura. A condição é acionada quando essa contagem fica acima ou abaixo de um número específico durante uma janela de duração.

    Esse tipo de condição requer que o agente do Monitoring esteja em execução nos recursos monitorados.

  • Proporção da métrica: será acionada se a proporção de duas métricas exceder um limite de uma duração. Essa é uma condição de limite usando duas métricas relacionadas, por exemplo, a proporção de respostas de erro HTTP para todas as respostas HTTP.

    As métricas que estão sendo comparadas precisam ter o mesmo MetricKind. Por exemplo, você pode criar uma política de alertas baseada em proporção se as duas métricas forem de medidas. Para ver uma lista de métricas e suas propriedades, consulte Listas de métricas.

Exemplos

Veja exemplos de cada um desses tipos:

Tipo de condição Exemplo de JSON
Limite de métrica Ver
Taxa de mudança Ver
Agregação de grupo Ver
Verificação de tempo de atividade Ver
Integridade do processo Ver
Proporção da métrica Ver

A seguir