Tipos de políticas de alertas

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Neste documento, descrevemos diferentes tipos de políticas de alertas baseadas em métricas e fornecemos exemplos JSON dessas políticas. As políticas de alertas definem condições que acompanham três coisas: alguma métrica que se comporta de alguma forma por um período. Por exemplo, uma política de alertas poderá ser acionada quando o valor de uma métrica for maior que um limite ou quando o valor mudar muito rápido.

Este conteúdo não se aplica a políticas de alertas baseadas em registros. Para informações sobre políticas de alertas com base em registros, que informam quando uma mensagem específica aparece nos registros, consulte Como monitorar os registros.

Para informações sobre como criar políticas de alertas, consulte os seguintes documentos:

Condição de ausência de métrica

Uma condição de ausência de métrica é acionada quando uma série temporal monitorada não tem dados para uma janela de duração específica.

As condições de ausência de métrica exigem pelo menos uma medição bem-sucedida, que recupera dados, dentro da janela de duração máxima após a instalação ou modificação da política. A janela de duração máxima configurável será de 24 horas se você usar o console do Google Cloud e de 24,5 horas se usar a API Cloud Monitoring.

Por exemplo, vamos supor que você defina a janela de duração em uma política de ausência de métrica como 30 minutos. A condição não será acionada quando o subsistema que grava dados de métrica nunca tiver gravado um ponto de dados. O subsistema precisa produzir pelo menos um ponto de dados e, em seguida, deixar de produzir pontos de dados adicionais por 30 minutos.

Condição do limite da métrica

Uma condição de limite de métrica é acionada quando os valores de uma métrica são maiores ou menores do que o limite para uma janela de duração específica. Por exemplo, uma condição de limite de métrica pode ser acionada quando a utilização da CPU for maior que 80% por pelo menos 5 minutos.

Dentro da classe dessas condições, há padrões que se enquadram em subcategorias gerais:

  • As condições de taxa de mudança são acionadas quando o valor aumenta ou diminui em uma porcentagem específica ou mais em uma janela de duração.

    Ao criar esse tipo de condição, um cálculo de porcentagem da mudança é aplicado à série temporal antes da comparação com o limite.

    A condição faz uma média dos valores da métrica nos últimos 10 minutos e, em seguida, compara o resultado com a média de 10 minutos que foi medida logo antes da janela de duração. A janela de lookback de 10 minutos usada por uma taxa de métrica de condição de mudança é um valor fixo: não é possível alterá-lo. No entanto, você especifica a janela de duração ao criar a condição.

  • As condições de agregação de grupo são acionadas quando uma métrica medida em um grupo de recursos ultrapassa um limite em uma janela de duração.

  • As condições de verificação de tempo de atividade são acionadas quando uma verificação de tempo de atividade não consegue responder a uma solicitação enviada de pelo menos dois locais geográficos.

  • As condições de integridade do processo são acionadas quando o número de processos em execução em uma instância de VM é maior ou menor que um limite. Também é possível configurar essas condições para monitorar um grupo de instâncias que correspondem a uma convenção de nomenclatura.

    Esse tipo de condição requer que o agente de operações ou o agente do Monitoring seja executado nos recursos monitorados. Para mais informações sobre os agentes, consulte Agentes do pacote de operações do Google Cloud.

  • As condições da proporção de métrica são acionadas quando a proporção de duas métricas excede um limite para uma janela de duração. Essas condições calculam a proporção de duas métricas, por exemplo, a proporção de respostas de erro HTTP para todas as respostas HTTP.

    Para mais informações sobre políticas baseadas em proporção, consulte Condições para alertas sobre proporções.

Condição da previsão

Uma condição de previsão é acionada quando gera uma previsão informando que o limite será violado na janela de previsão futura. Uma previsão prevê se uma série temporal viola ou não um limite dentro de uma janela de previsão, que é um período futuro. A janela de previsão pode variar de 1 hora (3.600 segundos) a 7 dias (604.800 segundos).

Você pode usar a estimativa ao monitorar a maioria das métricas. No entanto, quando você monitora um recurso restrito, como cota, espaço em disco ou uso de memória, uma condição de previsão pode notificar você antes da violação do limite. Esse recurso oferece mais tempo para responder à forma como esse recurso restrito está sendo consumido antes que o limite seja violado.

Para cada série temporal monitorada por uma condição de previsão, a condição instancia um algoritmo de decisão. Depois que esse algoritmo é treinado, ele gera uma previsão cada vez que a condição é avaliada. Cada previsão é uma previsão da série temporal que violará ou não o limite na janela de previsão. Se uma série temporal monitorada tiver um período periódico, o algoritmo de decisão da série temporal incorporará o comportamento periódico às previsões.

Uma condição de estimativa pode ser acionada quando uma destas situações (ou ambas) ocorrer:

  • Todos os valores de uma série temporal durante uma janela de duração específica violam o limite.
  • Todas as previsões de uma série temporal específica feitas em uma janela de duração fazem com que a série temporal viole o limite dentro da janela de previsão.

O tempo de treinamento inicial de um algoritmo de decisão é o dobro da duração da janela de previsão. Por exemplo, se a janela de previsão for de uma hora, serão necessárias duas horas de tempo de treinamento. O algoritmo de decisão de cada série temporal é treinado de forma independente. Enquanto um algoritmo de decisão está sendo treinado, a série temporal só pode acionar a condição quando os valores da série temporal violarem o limite da janela de duração especificada.

Após a conclusão do treinamento inicial, cada algoritmo de decisão é treinado continuamente usando dados que abrangem até seis vezes a duração da janela de previsão. Por exemplo, quando a janela de previsão é de uma hora, as seis horas mais recentes de dados são usadas durante o treinamento contínuo.

Quando você configura uma condição de previsão e os dados param de chegar por mais de 10 minutos, a previsão é desativada e a condição opera como uma condição de limite de métrica.

A maneira como os incidentes são criados e gerenciados para alertas de previsão é a mesma das condições de ausência e limite de métricas. Os incidentes são fechados automaticamente quando a previsão prevê que a série temporal não violará o limite na janela de previsão.

Restrições

  • É preciso configurar a condição usando filtros do Monitoring. Se você usar a interface com menus do Console do Google Cloud, suas seleções serão convertidas em um filtro do Monitoring.
  • É necessário configurar uma política de alertas usando a API Cloud Monitoring quando quiser monitorar uma proporção de métricas. Para mais informações, consulte Políticas de alertas na API Cloud Monitoring e Proporção da métrica.
  • Não é possível configurar a condição usando a linguagem de consulta do Monitoring ou o PromQL.
  • Todas as métricas que têm um tipo de valor duplo ou int64 são compatíveis, exceto as de instâncias de VMs da Amazon.

Examples

Exemplos de cada um desses tipos de política estão disponíveis:

Tipo de condição Exemplo de JSON Console do Google Cloud
Limite de métrica Ver Instruções
Taxa de mudança Ver Instruções
Agregação de grupo Ver Instruções
Verificação de tempo de atividade Ver Instruções
Integridade do processo Ver Instruções
Proporção da métrica Ver Instruções
Previsão Ver Instruções

A seguir