Esta página foi traduzida pela API Cloud Translation.

Comportamentos de políticas de alertas baseadas em métricas

Este documento descreve como os períodos de alinhamento e as janelas de reteste determinam quando uma condição é atendida, como as políticas de alertas combinam várias condições e como elas substituem pontos de dados ausentes. Ele também descreve o número máximo de incidentes abertos para uma política, o número de notificações por incidente e o que causa atrasos nas notificações.

Este conteúdo não se aplica a políticas de alertas baseadas em registros. Para informações sobre políticas de alertas baseadas em registros, consulte Como monitorar seus registros.

Períodos de alinhamento e novas janelas de teste

O Cloud Monitoring avalia o período de alinhamento e a janela de reteste ao determinar se a condição de uma política de alertas foi atendida.

Período de alinhamento

Antes de serem monitorados por uma política de alertas, os dados de série temporal precisam ser regularizados para que a política tenha dados regularmente espaçados para avaliação. O processo de regularização é chamado de alinhamento.

O alinhamento envolve duas etapas:

Dividir a série temporal em intervalos de tempo regulares, também chamados de agrupamento por classes dos dados. O intervalo é o período de alinhamento.
Calcular um único valor para os pontos no período de alinhamento. Você escolhe como esse ponto único é calculado. É possível somar todos os valores ou calcular a média deles, ou usar o valor máximo. A função que combina os pontos de dados é chamada de alinhador. O resultado da combinação é o valor alinhado.

Para mais informações sobre alinhamento, consulte Alinhamento: regularização na série.

Por exemplo, se o período de alinhamento for cinco minutos, às 13h, o período de alinhamento conterá as amostras recebidas entre 12h55 e 13h. Às 13h01, o período de alinhamento desliza um minuto e contém as amostras recebidas entre 12h56 e 13h01.

O Monitoring configura um período de alinhamento da seguinte forma:

Google Cloud console

Para configurar o período de alinhamento, escolha um valor para os seguintes campos na página Condições de alerta:

Janela móvel: especifica o período a ser avaliado.
Função de janela móvel: especifica a função matemática a ser realizada na janela de pontos de dados.

Para mais informações sobre as funções disponíveis, consulte Aligner na referência da API. Algumas das funções de alinhamento alinham os dados e os convertem de um tipo de métrica para outro. Para uma explicação detalhada, consulte Tipos e conversões.

API

Para configurar o período de alinhamento, defina os campos aggregations.alignmentPeriod e aggregations.perSeriesAligner nas estruturas MetricThreshold e MetricAbsence.

Para ilustrar o efeito do período de alinhamento em uma condição na política de alertas, considere uma condição de limite de métrica que esteja monitorando uma métrica com um período de amostragem de um minuto. Suponha que o período de alinhamento esteja definido como cinco minutos e que o alinhador esteja definido como sum. Além disso, suponha que a condição seja atendida quando o valor alinhado da série temporal for maior que dois por pelo menos três minutos e que a condição seja avaliada a cada minuto. Neste exemplo, a janela de reteste, que é descrita na próxima seção, é de três minutos. A figura a seguir ilustra várias avaliações sequenciais da condição:

Figura ilustrando o efeito do período de alinhamento na janela/duração do reteste.

Cada linha na figura ilustra uma única avaliação da condição. Os dados das séries temporais são exibidos. Os pontos no período de alinhamento são exibidos com pontos azuis. Os pontos mais antigos aparecem em preto. Cada linha mostra o valor alinhado e se ele é maior que o limite de dois. Para a linha rotulada start, o valor alinhado é calculado como um, que é menor que o limite. Na próxima avaliação, a soma das amostras no período de alinhamento será 2. Na terceira avaliação, a soma é três. Como esse valor é maior que o limite, um timer para a janela de reteste é iniciado.

Teste a janela novamente

A condição de uma política de alertas tem uma janela de novo teste, que evita que a condição seja atendida devido a uma única medição ou previsão. Por exemplo, suponha que a janela de reteste de uma condição esteja definida como 15 minutos. Confira a seguir o comportamento da condição com base no tipo dela:

As condições de limite de métrica são atendidas quando, para uma única série temporal, toda medição alinhada em um intervalo de 15 minutos viola o limite.
As condições de ausência de métrica são atendidas quando não há dados em uma série temporal em um intervalo de 15 minutos.
As condições de previsão são atendidas quando cada previsão produzida durante uma janela de 15 minutos prevê que a série temporal vai violar o limite dentro da janela de previsão.

Para políticas com uma condição, um incidente é aberto e as notificações são enviadas quando a condição é atendida. Esses incidentes permanecem abertos enquanto a condição continua sendo atendida.

Google Cloud console

Configure a janela de reteste usando o campo Janela de reteste na etapa Configurar gatilho de alerta.

API

Para configurar a janela de reteste, defina o campo chamado duration nas estruturas MetricThreshold e MetricAbsence.

A figura anterior ilustra três avaliações de uma condição de limite de métrica. Às start + 2 minutes, o valor alinhado é maior que o limite. No entanto, a condição não é atendida porque a janela de reteste é definida como três minutos. A figura a seguir ilustra os resultados para as próximas avaliações da condição:

Figura ilustrando o efeito da janela de reteste.

Mesmo que o valor alinhado seja maior que o limite às start + 2 minutes, a condição não será atendida até que o valor alinhado seja maior que o limite por três minutos. Esse evento ocorre às start + 5 minutes.

Uma condição redefine a janela de novo teste sempre que uma medição ou previsão não satisfaz a condição. Esse comportamento é ilustrado no exemplo a seguir:

Exemplo: essa política de alertas contém uma condição de limite de métrica que especifica uma janela de reteste de cinco minutos.

Se a latência de resposta HTTP for maior que dois segundos,
e se a latência for maior que o limite por cinco minutos,
abra um incidente e envie um e-mail para sua equipe de suporte.

A sequência a seguir ilustra como a janela de reteste afeta a avaliação da condição:

A latência HTTP é inferior a dois segundos.

Nos próximos três minutos consecutivos, a latência HTTP é maior que dois segundos.

Na próxima medição, a latência é menor que dois segundos, de modo que a condição redefine a janela de novo teste.

Nos próximos cinco minutos consecutivos, a latência HTTP fica acima de dois segundos, então a condição é atendida.

Como a política de alertas tem uma condição, o Monitoring envia notificações quando ela é atendida.

Defina a janela de reteste para que ela seja longa o suficiente para minimizar os falsos positivos, mas curta o suficiente para verificar se os incidentes são abertos na hora certa.

Práticas recomendadas para definir o período de alinhamento e a janela de reteste

O período de alinhamento determina quantas amostras são combinadas com o alinhador:

O valor mínimo do período de alinhamento para um tipo de métrica é o período de amostragem desse tipo de métrica. Por exemplo, se o tipo de métrica for amostrado a cada 300 segundos, o período de alinhamento precisará ser de pelo menos 300 segundos. No entanto, se você quiser combinar cinco amostras, defina o período de alinhamento como 5 * 300 segundos ou 1.500 segundos.
O valor máximo do período de alinhamento é 24 horas menos o atraso de ingestão do tipo de métrica. Por exemplo, se o atraso de ingestão de uma métrica for de 6 horas, o valor máximo do período de alinhamento será de 18 horas.

Use a janela de reteste para especificar a capacidade de resposta do alerta. Por exemplo, se você definir a janela de reteste como 20 minutos para uma condição de ausência de métrica, não poderá haver dados por 20 minutos antes que a condição seja atendida. Para uma política de alertas mais responsiva, defina a janela de reteste com um valor menor. Para condições de limite de métricas, defina a janela de novo teste como zero para ter uma política de alertas mais responsiva. Um único valor alinhado faz com que esses tipos de condições sejam atendidas.

As condições da política de alertas são avaliadas em uma frequência fixa. As opções que você faz para o período de alinhamento e a janela de reteste não determinam a frequência com que a condição é avaliada.

Políticas com várias condições

Uma política de alertas pode conter até seis condições.

Se você estiver usando a API Cloud Monitoring ou se sua política de alertas tiver várias condições, especifique quando um incidente será aberto. Para configurar como várias condições são combinadas, siga um destes procedimentos:

Google Cloud console

Você configura as opções de combinação na etapa Gatilho de várias condições.

API

Você configura as opções de combinador com o campo combiner da estrutura AlertPolicy.

Esta tabela lista as configurações no console do Google Cloud , o valor equivalente na API Cloud Monitoring e uma descrição de cada configuração:

Valor de acionamento da política doGoogle Cloud console	Valor do combinador da API Cloud Monitoring	Significado
Qualquer condição é atendida	`OR`	Um incidente será aberto se algum recurso fizer com que qualquer uma das condições seja atendida.
Todas as condições são atendidas mesmo para recursos diferentes para cada condição (padrão)	`AND`	Um incidente será aberto para cada condição atendida quando todas as condições forem atendidas, mesmo que um recurso diferente faça com que essas condições sejam atendidas.
Todas as condições são atendidas	`AND_WITH_MATCHING_RESOURCE`	Um incidente será aberto para cada condição atendida quando todas as condições forem atendidas, somente se o mesmo recurso fizer com que cada condição seja atendida. Essa configuração é a opção de combinação mais rigorosa.
Observação: a política de alertas usa os valores do rótulo para identificar o recurso que fez com que uma condição fosse atendida. Para que uma política de alertas com esse combinador crie incidentes ou gere notificações, os itens a seguir precisam ser verdadeiros: Cada condição precisa monitorar o mesmo recurso. Por exemplo, para todas as condições, o tipo de recurso é definido como `gce_instance`. Os rótulos de recursos monitorados que estão disponíveis após a agregação precisam ser iguais em todas as condições. Por exemplo, para o recurso `gce_instance`, os rótulos são `project_id`, `instance_id` e `zone`. Se uma condição for agrupada por `zone`, todas as condições precisarão ser agrupadas por `zone`. Para ver uma lista de recursos monitorados e seus rótulos, consulte Tipos de recursos monitorados.

Nesse contexto, o termo atendida significa que a configuração da condição é avaliada como true. Por exemplo, se a configuração for Any time series is greater than 10 for 5 minutes, quando esta instrução for avaliada como true, a condição será atendida.

Exemplo

Considere um projeto Google Cloud que contenha duas instâncias de VM, vm1 e vm2. Além disso, suponha que você crie uma política de alertas com duas condições:

A condição chamada CPU usage is too high monitora o uso da CPU das instâncias. Essa condição é atendida quando o uso da CPU de qualquer instância é maior que 100 ms/s por um minuto.
A condição chamada Excessive utilization monitora a utilização da CPU das instâncias. Essa condição é atendida quando a utilização da CPU de qualquer instância é maior que 60% por um minuto.

Inicialmente, suponha que ambas as condições sejam avaliadas como false.

Em seguida, suponha que o uso da CPU da vm1 exceda 100 ms/s por 1 minuto. Como o uso da CPU é maior que o limite por um minuto, a condição CPU usage is too high é atendida. Se as condições forem combinadas com Qualquer condição é atendida, um incidente será criado porque uma condição foi atendida. Se as condições forem combinadas com Todas as condições são atendidas ou Todas as condições são atendidas até mesmo para recursos diferentes para cada condição, um incidente não será criado. Essas escolhas do combinador exigem que as duas condições sejam atendidas.

Agora, suponha que o uso da CPU da vm1 continue acima de 100 ms/s e que a utilização da CPU da vm2 exceda 60% por 1 minuto. O resultado é que as duas condições são atendidas. Veja a seguir o que ocorre com base na forma como as condições são combinadas:

Qualquer condição é atendida: um incidente é criado quando um recurso faz com que uma condição seja atendida. Neste exemplo, vm2 faz com que a condição Excessive utilization seja atendida.

Se vm2 fizer com que a condição CPU usage is too high seja atendida, isso também resultará na criação de um incidente. Um incidente é criado porque a vm1 e a vm2 que fazem com que a condição CPU usage is too high seja atendida são eventos distintos.
Todas as condições são atendidas até mesmo para recursos diferentes para cada condição: um incidente é criado porque ambas as condições são atendidas.
Todas as condições são atendidas: um incidente não é criado porque esse combinador exige que o mesmo recurso faça com que todas as condições sejam atendidas. Neste exemplo, nenhum incidente é criado porque a vm1 faz com que CPU usage is too high seja atendido, enquanto a vm2 faz com que Excessive utilization seja atendido.

Dados de métricas parciais

Quando os dados de série temporal param de chegar ou são atrasados, o Monitoring os classifica como ausentes. A falta de dados pode impedir o encerramento de incidentes. Os atrasos nos dados que chegam de fornecedores de nuvem de terceiros podem atingir 30 minutos, sendo os de 5 a 15 minutos os mais comuns. Um atraso longo, maior do que a janela de reteste, pode fazer com que as condições entrem em um estado "desconhecido". Quando os dados finalmente chegam, o Monitoring pode ter perdido parte do histórico recente das condições. A inspeção posterior dos dados de séries temporais pode não revelar esse problema porque não há evidências de atrasos depois que os dados chegam.

Google Cloud console

É possível configurar como o Monitoring avalia uma condição de limite de métricas quando os dados param de chegar. Por exemplo, quando um incidente está aberto e uma medição esperada não chega, você quer que o Monitoring deixe o incidente aberto ou o feche imediatamente? Da mesma forma, quando os dados param de chegar e nenhum incidente está aberto, você quer que um incidente seja aberto? Por fim, por quanto tempo um incidente deve ficar aberto depois que os dados param de chegar?

Há dois campos configuráveis que especificam como o Monitoring avalia as condições de limite de métrica quando os dados param de chegar:

Para configurar como o Monitoring determina o valor de substituição de dados ausentes, use o campo Avaliação de dados ausentes, que você define na etapa Acionador de condição. Esse campo é desativado quando a janela de novo teste é definida como Nenhum novo teste.

A janela de reteste é o campo chamado "duration" na API Cloud Monitoring.
Para configurar quanto tempo o Monitoring espera antes de fechar um incidente aberto depois que os dados param de chegar, use o campo Duração do fechamento automático de incidentes. Você define a duração do fechamento automático na etapa Notificação. A duração padrão do fechamento automático é de sete dias.

Confira a seguir as diferentes opções para o campo de dados ausentes:

Campo "Avaliação de dados ausentes" doGoogle Cloud console Resumo Detalhes

Campo "Avaliação de dados ausentes" doGoogle Cloud console	Resumo	Detalhes
Dados ausentes vazios	Os incidentes abertos permanecem abertos. Novos incidentes não são abertos.	Para condições atendidas, a condição continua sendo atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele vai continuar aberto. Quando um incidente está aberto e nenhum dado chega, o timer de fechamento automático começa após um atraso de pelo menos 15 minutos. Se o timer expirar, o incidente será encerrado. Para condições que não são atendidas, a condição continua não sendo atendida quando os dados param de chegar.
Pontos de dados ausentes tratados como valores que violam a condição da política	Os incidentes abertos permanecem abertos. Novos incidentes podem ser abertos.	Para condições atendidas, a condição continua sendo atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele vai continuar aberto. Quando um incidente está aberto e nenhum dado chega durante o período de fechamento automático mais 24 horas, o incidente é fechado. Para condições que não são atendidas, essa configuração faz com que a condição de limite de métrica se comporte como um `metric-absence condition`. Se os dados não chegarem no período especificado pela janela de reteste, a condição será avaliada como atendida. Para uma política de alertas com uma condição, o atendimento da condição resulta na abertura de um incidente.
Pontos de dados ausentes tratados como valores que não violam a condição da política	Os incidentes abertos são fechados. Novos incidentes não são abertos.	Para condições atendidas, a condição deixa de ser atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele será fechado. Para condições que não são atendidas, a condição continua não sendo atendida quando os dados param de chegar.

Dados ausentes vazios

Os incidentes abertos permanecem abertos.
Novos incidentes não são abertos.

Para condições atendidas, a condição continua sendo atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele vai continuar aberto. Quando um incidente está aberto e nenhum dado chega, o timer de fechamento automático começa após um atraso de pelo menos 15 minutos. Se o timer expirar, o incidente será encerrado.

Para condições que não são atendidas, a condição continua não sendo atendida quando os dados param de chegar.

Pontos de dados ausentes tratados como valores que violam a condição da política

Os incidentes abertos permanecem abertos.
Novos incidentes podem ser abertos.

Para condições atendidas, a condição continua sendo atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele vai continuar aberto. Quando um incidente está aberto e nenhum dado chega durante o período de fechamento automático mais 24 horas, o incidente é fechado.

Para condições que não são atendidas, essa configuração faz com que a condição de limite de métrica se comporte como um metric-absence condition. Se os dados não chegarem no período especificado pela janela de reteste, a condição será avaliada como atendida. Para uma política de alertas com uma condição, o atendimento da condição resulta na abertura de um incidente.

Pontos de dados ausentes tratados como valores que não violam a condição da política

Os incidentes abertos são fechados.
Novos incidentes não são abertos.

Para condições atendidas, a condição deixa de ser atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele será fechado.

Para condições que não são atendidas, a condição continua não sendo atendida quando os dados param de chegar.

API

Há dois campos configuráveis que especificam como o Monitoring avalia as condições de limite de métrica quando os dados param de chegar:

Para configurar como o Monitoring determina o valor de substituição para dados ausentes, use o campo evaluationMissingData da estrutura MetricThreshold. Esse campo é ignorado quando o campo duration é zero.
Para configurar por quanto tempo o Monitoring aguarda antes de fechar um incidente aberto depois que os dados param de chegar, use o campo autoClose na estrutura AlertStrategy.

Confira a seguir as diferentes opções para o campo de dados ausentes:

Campo evaluationMissingData da API Resumo Detalhes

Campo `evaluationMissingData` da API	Resumo	Detalhes
`EVALUATION_MISSING_DATA_UNSPECIFIED`	Os incidentes abertos permanecem abertos. Novos incidentes não são abertos.	Para condições atendidas, a condição continua sendo atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele vai continuar aberto. Quando um incidente está aberto e nenhum dado chega, o timer de fechamento automático começa após um atraso de pelo menos 15 minutos. Se o timer expirar, o incidente será encerrado. Para condições que não são atendidas, a condição continua não sendo atendida quando os dados param de chegar.
`EVALUATION_MISSING_DATA_ACTIVE`	Os incidentes abertos permanecem abertos. Novos incidentes podem ser abertos.	Para condições atendidas, a condição continua sendo atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele vai continuar aberto. Quando um incidente está aberto e nenhum dado chega durante o período de fechamento automático mais 24 horas, o incidente é fechado. Para condições que não são atendidas, essa configuração faz com que a condição de limite de métrica se comporte como um `metric-absence condition`. Se os dados não chegarem no período especificado pelo campo "duration", a condição será avaliada como atendida. Para uma política de alertas com uma condição, o atendimento da condição resulta na abertura de um incidente.
`EVALUATION_MISSING_DATA_INACTIVE`	Os incidentes abertos são fechados. Novos incidentes não são abertos.	Para condições atendidas, a condição deixa de ser atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele será fechado. Para condições que não são atendidas, a condição continua não sendo atendida quando os dados param de chegar.

EVALUATION_MISSING_DATA_UNSPECIFIED

Os incidentes abertos permanecem abertos.
Novos incidentes não são abertos.

Para condições que não são atendidas, a condição continua não sendo atendida quando os dados param de chegar.

EVALUATION_MISSING_DATA_ACTIVE

Os incidentes abertos permanecem abertos.
Novos incidentes podem ser abertos.

Para condições atendidas, a condição continua sendo atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele vai continuar aberto. Quando um incidente está aberto e nenhum dado chega durante o período de fechamento automático mais 24 horas, o incidente é fechado.

Para condições que não são atendidas, essa configuração faz com que a condição de limite de métrica se comporte como um metric-absence condition. Se os dados não chegarem no período especificado pelo campo "duration", a condição será avaliada como atendida. Para uma política de alertas com uma condição, o atendimento da condição resulta na abertura de um incidente.

EVALUATION_MISSING_DATA_INACTIVE

Os incidentes abertos são fechados.
Novos incidentes não são abertos.

Para condições atendidas, a condição deixa de ser atendida quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele será fechado.

Para condições que não são atendidas, a condição continua não sendo atendida quando os dados param de chegar.

Para minimizar problemas devido a dados ausentes, faça o seguinte:

Entre em contato com seu provedor de nuvem de terceiros para identificar maneiras de reduzir a latência da coleta de métricas.
Use janelas de reteste mais longas nas condições. Usar uma janela de reteste mais longa tem a desvantagem de tornar as políticas de alertas menos responsivas.
Escolha métricas com menor atraso de coleta:
- Métricas do agente do Monitoring, especialmente quando o agente está sendo executado em instâncias de VM em nuvens de terceiros.
- Métricas personalizadas, quando você grava os dados diretamente no Monitoring.
- Métricas com base em registros, se a coleta de entradas de registro não estiver atrasada.

Para mais informações, consulte Visão geral do agente do Monitoring, Visão geral das métricas definidas pelo usuário e métricas com base em registros.

Quando o Monitoring envia notificações e cria incidentes

O Cloud Monitoring envia uma notificação quando uma série temporal faz com que uma condição seja atendida. A notificação é enviada para todos os canais de notificação. Não é possível restringir uma notificação a um canal específico ou a um subconjunto dos canais da sua política.

Se você configurar notificações repetidas, a mesma notificação será enviada novamente para canais específicos da sua política de alertas.

Você pode receber várias notificações exclusivas relacionadas a uma política de alertas quando qualquer uma das condições a seguir for verdadeira:

Uma condição está monitorando várias séries temporais.
Uma política contém várias condições. Nesse caso, as notificações que você recebe dependem do valor do gatilho de várias condições da política de alertas:
- Todas as condições são atendidas: quando todas as condições são atendidas, para cada série temporal que resulta em uma condição atendida, a política de alertas envia uma notificação e cria um incidente.
  
  Não é possível configurar o Cloud Monitoring para criar apenas um incidente e enviar apenas uma notificação quando a política de alertas contém várias condições.
- Qualquer condição é atendida: a política de alertas envia uma notificação quando uma série temporal faz com que a condição seja atendida.
Para mais informações, consulte Políticas com várias condições.

As políticas de alertas criadas com a API Cloud Monitoring também notificam você quando a condição é atendida e quando ela deixa de ser atendida. As políticas de alertas criadas com o console Google Cloud não enviam uma notificação quando a condição deixa de ser atendida, a menos que você tenha ativado esse comportamento.

Quando o Monitoring não envia notificações nem cria incidentes

Nas situações a seguir, o Monitoring não cria incidentes nem envia notificações quando as condições de uma política de alertas são atendidas:

A política de alertas está desativada.
A política de alertas está adiada.
O Monitoring atingiu o limite máximo de incidentes abertos.

Políticas de alertas desativadas

O Monitoring não envia notificações nem cria incidentes para políticas de alertas desativadas. No entanto, o Monitoring continua avaliando as condições de uma política de alertas desativada.

Quando você ativa uma política desativada, o Monitoring avalia os valores de todas as condições na janela de reteste mais recente. O período de reteste mais recente pode incluir dados coletados antes, durante e depois da ativação da política. As condições de uma política desativada podem ser atendidas imediatamente após a retomada, mesmo com grandes janelas de reteste.

Por exemplo, suponha que você tenha uma política de alertas que monitora um processo específico e que você a desative. Na semana seguinte, o processo para de funcionar, e como a política de alertas está desativada, você não recebe uma notificação. Se você reiniciar o processo e ativar a política de alertas imediatamente, o Monitoring vai reconhecer que o processo não estava ativo nos últimos cinco minutos e vai abrir um incidente.

Os incidentes relacionados a uma política de alertas desativada permanecem abertos até que a duração de fechamento automático da política expire.

Políticas de alertas adiadas

O Monitoring não envia notificações nem cria incidentes para uma política de alertas que está em espera. Recomendamos adiar políticas de alertas quando você quiser impedir que uma política de alertas envie notificações apenas por intervalos curtos. Por exemplo, antes de fazer manutenção em uma máquina virtual (VM), é possível criar uma suspensão e adicionar aos critérios de suspensão as políticas de alertas que monitoram a instância.

Quando você adia uma política de alertas, o Monitoring fecha todos os incidentes abertos relacionados a ela. O Monitoring pode abrir novos incidentes depois que o adiamento expirar. Para mais informações, consulte Adiar notificações e incidentes.

Limites de notificações e incidentes abertos

Uma política de alertas pode ser aplicada a muitos recursos, e um problema que afeta todos os recursos pode fazer com que a política de alertas abra incidentes para cada recurso. Um incidente é aberto para cada série temporal que resulta em uma condição atendida.

Para evitar a sobrecarga no sistema, o número de incidentes que uma única política pode abrir simultaneamente é limitado a 1.000.

Por exemplo, considere uma política que se aplica a 2.000 instâncias do Compute Engine, e cada instância faz com que as condições de alerta sejam atendidas. O Monitoring limita o número de incidentes abertos a 1.000. Qualquer condição restante atendida será ignorada até que alguns dos incidentes abertos para essa política sejam resolvidos.

Como resultado desse limite, um único canal de notificação pode receber até 1.000 notificações de uma só vez. Se a política de alertas tiver vários canais de notificação, esse limite será aplicado a cada um deles de forma independente.

Latência

Latência se refere ao atraso entre o momento em que o Monitoring faz uma amostragem de uma métrica e o momento em que o ponto de dados da métrica fica visível como dados de série temporal. A latência afeta o momento em que as notificações são enviadas. Por exemplo, se uma métrica monitorada tiver uma latência de até 180 segundos, o Monitoring não vai criar um incidente por até 180 segundos depois que a condição da política de alertas for avaliada como verdadeira. Para mais informações, consulte Latência dos dados de métrica.

Os eventos e as configurações a seguir contribuem para a latência:

Atraso de coleta de métrica: o tempo que o Monitoring precisa para coletar valores de métrica. Para valores de Google Cloud , a maioria das métricas não fica visível por 60 segundos após a coleta. No entanto, o atraso depende da métrica. Os cálculos da política de alertas levam um atraso adicional de até 5 minutos e 30 segundos. Para métricas do AWS CloudWatch, o atraso de visibilidade pode ser de vários minutos. Para verificações de tempo de atividade, essa pode ser uma média de dois minutos (a partir do final da janela de reteste).
Teste a janela novamente: a janela configurada para a condição. As condições só serão atendidas se uma condição for verdadeira ao longo da janela de novo teste. Por exemplo, uma configuração de janela de reteste de cinco minutos causa atrasos na notificação de pelo menos cinco minutos a partir da primeira ocorrência do evento.
Tempo para a chegada da notificação: os canais de notificação, como e-mail e SMS, podem enfrentar latências de rede ou de outros tipos não relacionados ao que está sendo entregue, às vezes na ordem dos minutos. Em alguns canais, como SMS e Slack, não há garantia de que as mensagens serão entregues.

A seguir

Para informações sobre como criar uma política de alertas, consulte os seguintes documentos:
Para ver uma variedade de políticas de alertas, consulte Políticas de amostra.

Comportamentos de políticas de alertas baseadas em métricas Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Períodos de alinhamento e novas janelas de teste

Período de alinhamento

Google Cloud console

API

Teste a janela novamente

Google Cloud console

API

Práticas recomendadas para definir o período de alinhamento e a janela de reteste

Políticas com várias condições

Google Cloud console

API

Dados de métricas parciais

Google Cloud console

API

Quando o Monitoring envia notificações e cria incidentes

Quando o Monitoring não envia notificações nem cria incidentes

Políticas de alertas desativadas

Políticas de alertas adiadas

Limites de notificações e incidentes abertos

Latência

A seguir

Comportamentos de políticas de alertas baseadas em métricas