Criar políticas de alertas de limite de métrica

Neste documento, descrevemos como usar o console do Google Cloud para criar um alertas com base em métricas política que envia notificações quando os valores de uma métrica forem maiores ou menores que o limite para uma janela de novo teste específica. Por exemplo, a condição de uma política de alertas podem ser atendidas quando a utilização da CPU for maior que 80% por pelo menos cinco minutos.

Este conteúdo não se aplica a políticas de alertas baseadas em registros. Para informações sobre políticas de alertas baseadas em registros, que informam quando uma mensagem específica aparece nos registros, consulte Como monitorar seus registros.

Este documento não descreve o seguinte:

Antes de começar

  1. Para receber as permissões necessárias para criar e modificar políticas de alertas usando o console do Google Cloud, peça ao administrador para conceder a você Papel do IAM Editor do Monitoring (roles/monitoring.editor) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

    Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

    Para mais informações sobre os papéis do Cloud Monitoring, consulte Controlar o acesso com o Identity and Access Management.

  2. Familiarize-se com os conceitos gerais das políticas de alertas. Para informações sobre esses tópicos, consulte Informações gerais sobre alertas.

  3. Configure os canais de notificação que você quer usar para receber notificações. Para fins de redundância, recomendamos que você crie vários tipos de canais de notificação. Para saber mais, consulte Criar e gerenciar canais de notificação.

Criar política de alertas

Para criar uma política de alertas que compare o valor dessa métrica com uma limite, faça o seguinte:

  1. No console do Google Cloud, acesse a página  Alertas:

    Acessar Alertas

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoramento.

  2. Selecione Criar política.
  3. Selecione a série temporal que será monitorada:

    1. Clique em Selecionar uma métrica, navegue pelos menus para selecionar um tipo de recurso e de métrica e clique em Aplicar.

      O menu Selecionar uma métrica contém recursos que ajudam você a encontrar os tipos de métrica disponíveis:

      • Para encontrar um tipo de métrica específico, use a barra de filtro. Por exemplo, se você inserir util, o menu será restrito para mostrar entradas que incluem util. As entradas são mostradas quando passam em um teste "contains" indiferente a maiúsculas.
      • Para mostrar todos os tipos de métrica, mesmo as que não têm dados, clique em Ativo. Por padrão, os menus mostram apenas tipos de métricas com dados. Para mais informações, consulte Métrica não listada no menu

      É possível monitorar qualquer métrica integrada ou definida pelo usuário métrica.

    2. Opcional: para monitorar um subconjunto da série temporal que corresponda aos tipos de métrica e recurso selecionados na etapa anterior, clique em Adicionar filtro. Na caixa de diálogo de filtro, selecione o rótulo por para filtrar, um comparador e o valor do filtro. Por exemplo, o filtro zone =~ ^us.*.a$ usa uma expressão regular para corresponder a todos os dados de série temporal em que o nome da zona começa com us e termina com a. Para mais informações, consulte Filtrar a série temporal selecionada.

    3. Opcional: para mudar como os pontos de uma série temporal são alinhados, na seção Transformar dados, defina os campos Janela de rolagem e Função de janela de rolagem.

      Se você estiver monitorando uma métrica com base em registros, recomendamos que o menu Janela móvel seja definido para pelo menos 10 minutos.

      Esses campos especificam como os pontos registrados em uma janela são combinados. Por exemplo, suponha que a janela seja de 15 minutos e que a função da janela seja max. O ponto alinhado é o valor máximo de todos os pontos nos 15 minutos mais recentes. Para mais informações, consulte Alinhamento: regularização dentro da série.

      Também é possível monitorar a taxa de mudança de um valor de métrica Use o campo Função de janela contínua para variação percentual. Para mais informações, consulte Monitorar uma taxa de mudança.

    4. Opcional: combine série temporal quando quiser reduzir o número de monitoradas por uma política ou quando você quer monitorar apenas uma coleção de série temporal. Por exemplo, em vez de monitorar CPU de cada instância de VM, convém calcular o média da utilização de CPU para todas as VMs em uma zona e, em seguida, monitorar essa média. Por padrão, as séries temporais não são combinadas. Para informações gerais, consulte Redução: combinar séries temporais.

      Para combinar todas as séries temporais, faça o seguinte:

      1. Na seção Em série temporal, Clique em Expandir.
      2. Defina o campo Agregação de séries temporais com um valor diferente de none. Por exemplo, para exibir o valor médio do série temporal, selecione mean.
      3. O campo Agrupar por série temporal precisa estar vazio.

      Para combinar ou agrupar série temporal por valores de rótulo, faça o seguinte:

      1. Na seção Em série temporal, Clique em Expandir.
      2. Defina o campo Agregação de série temporal com um valor diferente de none
      3. No campo Agrupar por série temporal, selecione os rótulos. pelo qual agrupar.

      Por exemplo, se você agrupar pelo rótulo zone e definir o campo de agregação como mean, o gráfico vai mostrar uma série temporal para cada zona com dados. A série temporal mostrada para uma zona específica é a média de todas as séries temporais com essa zona.

    5. Clique em Próxima.

  4. Configure o gatilho de condição:

    1. Deixe o campo Tipo de condição com o valor padrão de Limite.

    2. Opcional: atualize o menu Acionador de alerta, que tem os seguintes valores:

      • Any time series violates: configuração padrão. Qualquer série temporal violação do limite para toda a janela de novo teste faz com que a condição seja atendida.

      • Percent of série temporal violation: indica uma porcentagem de série temporal. precisa violar o limite de toda a janela de novo teste antes que a condição seja atendida. Por exemplo, você pode receber uma notificação quando 50% da série temporal monitorada violarem o limite para toda a janela de novo teste.

      • Número de série temporal viola: um número específico de série temporal. precisa violar o limite de toda a janela de novo teste antes que a condição seja atendida. Por exemplo, você pode receber uma notificação quando 32 das séries de tempo monitoradas violarem o limite para toda a janela de novo teste.

      • Todas as séries temporais violam: todas as séries temporais precisam violar o limite para toda a janela de novo teste antes que a condição seja atendida.

      Para informações sobre os intervalos que o Monitoring usa para alinhar e medir dados de série temporal, consulte Períodos de alinhamento e janelas de novo teste.

    3. Insira quando o valor de uma métrica violar o limite usando o Campos Posição do limite e Valor do limite. Por exemplo: se você definir esses valores como Acima do limite e 0.3, todos os uma medição maior do que 0.3 viola o limite.

    4. Opcional: para selecionar por quanto tempo as medições precisam violar o limite antes que o monitoramento envie uma notificação, abra as Opções avançadas e use o menu Janela de nova testagem.

      O valor padrão é Sem novo teste. Com essa configuração, uma única medição pode resultar em uma notificação. Para mais informações e um exemplo, consulte Configurações de período e duração de alinhamento.

    5. Opcional: para especificar como o Monitoring avalia condição quando os dados pararem de chegar, expandir Opções avançadas, depois usar o Dados ausentes da avaliação .

      O menu Avaliação de dados ausentes fica desativado quando o valor da Janela de novos testes é Sem novos testes.

      Console do Google Cloud
      "Avaliação de dados ausentes" campo
      Resumo Detalhes
      Dados ausentes vazios Incidentes abertos permanecem abertos.
      Os novos incidentes não são abertos.

      Quando as condições são atendidas, a condição continua a ser quando os dados param de chegar. Se um incidente estiver aberto para essa condição, ele vai permanecer aberto. Quando um incidente está aberto e nenhum dado chegar, o timer de fechamento automático é iniciado após um atraso de pelo menos 15 minutos. Se o timer expirar, o incidente será encerrado.

      Para condições que não são atendidas, a condição continua não sendo atendida quando os dados param de chegar.

      Pontos de dados ausentes tratados como valores que violam a condição da política Os incidentes abertos permanecem abertos.
      Novos incidentes podem ser abertos.

      Para condições atendidas, a condição continua sendo atendida quando os dados param de chegar. Se houver um incidente aberto para essa condição, o incidente permanece aberto. Quando um incidente é aberto e nenhum dado chega para a duração do fechamento automático mais 24 horas, o incidente é encerrado.

      Para condições que não são atendidas, essa configuração faz com que a condição de limite de métrica se comporte como um metric-absence condition. Se os dados não chegarem no tempo especificado pela janela de novo teste, a condição será avaliada como atendida. Para uma política de alertas com uma condição, o atendimento da condição resulta na abertura de um incidente.

      Pontos de dados ausentes tratados como valores que não violam a condição da política Os incidentes abertos são encerrados.
      Novos incidentes não são abertos.

      Para as condições que são atendidas, a condição deixa de ser cumprida quando os dados param de chegar. Se houver um incidente aberto para essa condição, o incidente é encerrado.

      Para condições que não são atendidas, a condição continua não sendo atendida quando os dados param de chegar.

    6. Clique em Próxima.

  5. Opcional: crie uma política de alertas com várias condições.

    A maioria das políticas monitora um único tipo de métrica. Por exemplo, uma política pode monitorar o número de bytes gravados em uma instância de VM. Quando você quiser monitorar vários tipos de métricas, crie uma política com várias condições. Cada condição monitora um tipo de métrica. Depois de criar as condições, você especifica como as condições são combinadas. Para mais informações, consulte Políticas com várias condições:

    Para criar uma política de alertas com várias condições, faça o seguinte:

    1. Para cada condição adicional, clique em Adicionar condição de alerta e configurar essa condição.
    2. Clique em Próxima e configure como as condições são combinadas.
    3. Clique em Próxima para avançar para a configuração de notificações e documentação.
  6. Configure as notificações:

    1. Expanda o menu Notificações e nome e selecione seus canais de notificação. Para fins de redundância, recomendamos que você adicione a uma política de alertas vários tipos de canais de notificação. Para saber mais, consulte Gerenciar canais de notificação.

    2. Opcional: para receber uma notificação quando um incidente for fechado, selecione Notificar sobre o fechamento de incidentes. Por padrão, quando você cria uma política de alertas com o Console do Google Cloud, uma notificação é enviada apenas quando um incidente é criado.

    3. Opcional: para alterar o tempo que o Monitoring espera antes de como encerrar um incidente depois que os dados param de chegar, selecione uma opção Menu Duração do fechamento automático de incidentes. Por padrão, quando os dados param de chegar, o Monitoring aguarda sete dias antes de fechar um incidente aberto.

    4. Selecione uma opção no menu Nível de gravidade da política. Os incidentes e as notificações mostram o nível de gravidade.

    5. Opcional: para adicionar rótulos personalizados à política de alertas, na seção Rótulos do usuário da política, faça o seguinte:

      1. Clique em Adicionar rótulo e, no campo Chave, insira um nome para o rótulo. Os nomes dos rótulos precisam começar com uma letra minúscula e podem conter letras minúsculas, números, sublinhados e traços. Por exemplo, insira severity.
      2. Clique em Valor e digite um valor para o rótulo. Os valores de rótulo podem conter letras minúsculas, numerais, sublinhados e traços. Por exemplo, insira critical.

      Para saber como usar os rótulos de políticas para gerenciar as notificações, consulte Anexar rótulos a incidentes.

  7. Opcional: na seção Documentação, insira o conteúdo que quiser. incluído na notificação.

    Para formatar a documentação, use texto simples, Markdown e variáveis. Você também pode inclua links para ajudar os usuários a depurar o incidente, como como links para playbooks internos, painéis do Google Cloud e recursos páginas de destino. Por exemplo, o modelo de documentação a seguir descreve um modelo de uso do Google para um recurso gce_instance e inclui várias variáveis para fazer referência à política de alertas e à condição REST do Google Cloud. O modelo de documentação direciona os leitores para páginas externas para ajudar na depuração.

    Quando as notificações são criadas, o Monitoring substitui as variáveis da documentação com os valores delas. Os valores substituem as variáveis somente nas notificações. O painel de visualização e outros lugares no console do Google Cloud para mostrar apenas a formatação Markdown.

    Visualizar

    ## CPU utilization exceeded
    
    ### Summary
    
    The ${metric.display_name} of the ${resource.type}
    ${resource.label.instance_id} in the project ${resource.project} has
    exceeded 90% for over 15 minutes.
    
    ### Additional resource information
    
    Condition resource name: ${condition.name}  
    Alerting policy resource name: ${policy.name}  
    
    ### Troubleshooting and Debug References
    
    Repository with debug scripts: example.com  
    Internal troubleshooting guide: example.com  
    ${resource.type} dashboard: example.com
    

    Formatar na notificação

    Exemplo de como a documentação é renderizada em uma notificação.

    Para mais informações, consulte Anexar documentação definida pelo usuário às notificações e Como usar controles de canal.

  8. Clique em Nome e digite um nome para a política de alertas.

  9. Clique em Criar política.

Filtrar a série temporal selecionada

Os filtros garantem que somente séries temporais que atendam a algum conjunto de critérios sejam monitoradas. Ao aplicar filtros, você pode reduzir o número de linhas no gráfico, o que pode melhorar a performance dele. Também é possível reduzir a quantidade de dados monitorados aplicando a agregação. Os filtros garantem que somente séries temporais que atendam a algum conjunto de critérios sejam usadas. Quando você aplica filtros, há menos série temporal para avaliar, o que pode melhorar o desempenho do alerta.

Um filtro é composto por um rótulo, um comparador e um valor. Por exemplo, para corresponder a todas as séries temporais em que o rótulo zone começa com "us-central1", você pode usar o filtro zone=~"us-central1.*", que usa uma expressão regular para realizar a comparação.

Ao filtrar pelo ID do projeto ou pelo contêiner de recursos, use o operador de igualdade, (=). Ao filtrar por outros rótulos, use qualquer comparador compatível. Normalmente, é possível filtrar rótulos de métricas e recursos grupo de recursos.

Quando você fornece vários critérios de filtragem, somente as séries temporais que atendem a todos os critérios são monitoradas.

Para adicionar um filtro, clique em Adicionar filtro, preencha a caixa de diálogo e clique em Concluído. Na caixa de diálogo, use o campo Filtro para selecionar o critério de filtragem, o operador de comparação e, em seguida, o valor. Cada linha na tabela a seguir lista um operador de comparação, seu significado e uma exemplo:

OperadorSignificadoExemplo
= Igualdade resource.labels.zone = "us-central1-a"
!= Desigualdade resource.labels.zone != "us-central1-a"
=~ Igualdade entre expressão regular2 monitoring.regex.full_match("^us.*")
!=~ Desigualdade de expressão regular2 monitoring.regex.full_match("^us.*")
starts_with O valor começa com resource.labels.zone = starts_with("us")
ends_with O valor termina com resource.labels.zone = ends_with("b")
has_substring O valor contém resource.labels.zone = has_substring("east")
one_of Uma resource.labels.zone = one_of("asia-east1-b", "europe-north1-a")
!starts_with O valor não começa com resource.labels.zone != starts_with("us")
!ends_with O valor não termina com resource.labels.zone != ends_with("b")
!has_substring O valor não contém resource.labels.zone != has_substring("east")
!one_of O valor não é um dos resource.labels.zone != one_of("asia-east1-b", "europe-north1-a")

Resolver problemas

Esta seção contém dicas de solução de problemas.

Métrica não listada no menu de métricas disponíveis

Para monitorar uma métrica que não está listada no menu Selecionar uma métrica, faça o seguinte:

  • Para criar uma política de alertas que monitora uma métrica do Google Cloud, expanda o menu Selecionar uma métrica e clique em Ativo. Quando desativado, o menu lista todas as métricas de serviços do Google Cloud e todas as métricas com dados.

  • Para configurar uma condição para um tipo de métrica personalizada antes que esse tipo gere dados, especifique o tipo de métrica usando um filtro de monitoramento:

    1. Selecione ? no cabeçalho da seção Selecionar métrica e, em seguida, selecione Modo de filtro direto na dica.
    2. Insira um filtro de monitoramento ou um seletor de série temporal. Para informações sobre a sintaxe, consulte os documentos a seguir:

Monitorar uma taxa de mudança

Para monitorar a taxa de alteração do valor de uma métrica, defina a Campo Função de janela contínua para alteração percentual. Quando a condição é avaliada, o Monitoring calcula a taxa de mudança da métrica como uma porcentagem e compara essa porcentagem ao limite da condição. Esse processo de comparação segue duas etapas:

  1. Se a série temporal tiver um tipo de métrica DELTA ou CUMULATIVE, ela será convertida em uma que tenha um tipo de métrica GAUGE. Para mais informações sobre o conversão, consulte Tipos, tipos e conversões.
  2. O monitoramento calcula a porcentagem alterada comparando o valor médio na janela deslizante de 10 minutos mais recente com o valor médio da janela deslizante de 10 minutos antes do início do período de alinhamento.

Não é possível mudar a janela deslizante de 10 minutos usada para comparações em uma política de alertas de taxa de mudança. No entanto, você especifica o período de alinhamento ao criar a condição.

A seguir