Incidentes para alertas com base em métricas

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Um incidente, também chamado de alerta, é um registro do acionador de uma política de alertas. A menos que uma política de alertas seja adiada ou desativada, o Cloud Monitoring abre um incidente quando uma condição de uma política de alertas é acionada. O incidente contém informações que podem ser usadas para investigar a causa da notificação.

Neste documento, descrevemos como visualizar, investigar e gerenciar incidentes para políticas de alertas baseadas em métricas.

Como encontrar incidentes

Para ver uma lista de incidentes, faça o seguinte:

  1. Na barra de ferramentas do Console do Google Cloud, clique em Menu de navegação e selecione Monitoring:

    Acessar Monitoring

  2. No painel de navegação do Monitoring, selecione  Alertas:

    • O painel Resumo lista o número de incidentes abertos.
    • O painel Incidentes exibe os incidentes mais recentes. Para ocultar incidentes fechados na tabela, clique em Ocultar incidentes fechados.
  3. Opcional: para ver os detalhes de um incidente específico, selecione-o na lista. A página Detalhes do incidente é aberta. Para informações sobre esta página, consulte a seção Investigar incidentes desta página.

Como encontrar incidentes mais antigos

O painel Incidentes na página Alertas mostra os incidentes abertos mais recentes. Para localizar incidentes mais antigos, siga um destes procedimentos:

  • Para percorrer as entradas na tabela Incidentes, clique em  Mais recentes ou em  Mais antigos.

  • Para acessar a página Incidentes, clique em Ver todos os incidentes. Na página Incidentes, você pode fazer o seguinte:

    • Ocultar incidentes fechados: para listar apenas os incidentes abertos na tabela, clique em Ocultar incidentes fechados.
    • Filtrar incidentes: para mais informações sobre como adicionar filtros, consulte Como filtrar incidentes.
    • Reconhecer, silenciar ou fechar um incidente: para acessar essas opções, clique em  Mais opções na linha do incidente e selecione uma opção. no menu. Para mais informações, consulte Como gerenciar incidentes.

Como filtrar incidentes

Quando você insere um valor na barra de filtro, apenas os incidentes correspondentes ao filtro são listados na tabela Incidentes. Se você adicionar vários filtros, um incidente só será exibido se todos os filtros forem atendidos.

Para adicionar um filtro à tabela de incidentes, faça o seguinte:

  1. Na página Incidentes, clique em  Filtrar tabela e selecione uma propriedade de filtro. As propriedades de filtro incluem:

    • Estado do incidente
    • Nome da política de alertas
    • quando o incidente foi aberto ou fechado;
    • Tipo de métrica
    • Resource type
  2. Selecione um valor no menu secundário ou digite um valor na barra de filtro.

    Por exemplo, se você selecionar Tipo de métrica e inserir usage_time, poderá ver apenas as seguintes opções no menu secundário:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Como investigar incidentes

Para ver os detalhes de um incidente, é preciso ter, no mínimo, o papel roles/monitoring.viewer do Identity and Access Management. Para saber mais, consulte Não foi possível ver detalhes do incidente devido a um erro de permissão.

Depois de encontrar o incidente que você quer investigar, acesse a página Detalhes do incidente. Para ver os detalhes, clique no resumo de incidentes na tabela de incidentes nas páginas Alertas ou Incidentes.

Caso você tenha recebido uma notificação que inclua um link para o incidente, use esse link para ver os detalhes.

A captura de tela a seguir mostra a página de detalhes de um incidente:

A página de detalhes fornece informações resumidas e ferramentas investigativas de um incidente.

A página Detalhes do incidente apresenta as seguintes informações:

  • Informações de status, incluindo:

    • Nome: o nome da política de alertas que causou o incidente.
    • Status: o status do incidente: aberto, confirmado ou fechado.
    • Duração: o período em que o incidente foi aberto.
  • Informações sobre a política de alertas que causou o incidente:

    • Painel Condition: identifica a condição na política de alertas que causou o incidente.

    • Painel Message: fornece uma breve explicação da causa com base na configuração da condição na política de alertas. Esse painel é sempre preenchido.

    • Painel Documentação: mostra o modelo de documentação das notificações que você forneceu ao criar a política de alertas. Essas informações podem incluir uma descrição do que a política de alertas monitora e dicas para mitigação.

      Se você tiver pulado esse campo ao criar a política de alertas, esse painel informará "quot;No document" (configurado) quoquo;

  • Rótulos: informa o seguinte:
    • Os rótulos e valores para o recurso monitorado e a métrica da série temporal que acionou a política de alertas. Essas informações podem ajudar você a identificar o recurso monitorado específico que causou o incidente.

      Quando você usa variáveis na documentação de rótulos de métricas, o Monitoring omite o rótulo de notificações quando o valor do rótulo não começa com um dígito, uma letra, uma barra (/) ou um sinal de igual (=).

    • Todos os rótulos e valores especificados pelo usuário que você definiu na política de alertas. Use esses rótulos para organizar e identificar políticas de alertas. Os rótulos associados a uma política estão listados na seção Rótulos de política, enquanto os marcadores definidos como parte de uma condição são listados na seção Rótulos de métrica. Para uso de exemplo, consulte Adicionar níveis de gravidade a uma política de alertas.

A página Detalhes de incidentes também fornece ferramentas para investigar o incidente:

  • Linha do tempo de incidentes: mostra duas representações visuais do incidente:

    • Uma barra vermelha acima de um eixo de tempo representa o incidente. A duração e a posição da barra refletem a duração do incidente.
    • Um gráfico mostra os dados e o limite de séries temporais usados pela política de alertas que causou o incidente. O incidente foi aberto quando alguma série temporal atendeu a uma condição da política de alertas.

    O eixo de tempo indica a duração do incidente com dois pontos rotulados. A posição desses pontos no eixo de tempo determina o intervalo de dados mostrado no gráfico que acompanha a linha do tempo do incidente. Por padrão, um ponto é posicionado na abertura do incidente e outro no fechamento do incidente ou no horário atual, se o incidente ainda estiver aberto.

    É possível modificar o intervalo de tempo na linha do tempo do incidente e no gráfico:

    • Para alterar o período mostrado no gráfico, arraste um dos pontos ao longo do eixo do tempo. Ao usar essa técnica, é possível se concentrar em intervalos específicos, como o início ou o fim do incidente, por exemplo.

      Alterar o gráfico arrastando os pontos no eixo define um valor personalizado no menu Período e desativa o menu. Para ativar o menu Período, clique em Redefinir.

    • Para alterar o período exibido na linha do tempo, selecione um período no menu Período.

  • Links para outras ferramentas de solução de problemas. A configuração do projeto e da política de alertas e a idade do incidente determinam quais links estão disponíveis.
    • Para ver a página de detalhes da política de alertas, clique em Ver política.
    • Para editar a definição da política de alertas, clique em Editar política.
    • Para acessar um painel de informações de desempenho do recurso, clique em Visualizar detalhes do recurso.
    • Para ver as entradas relacionadas no Explorador de registros, clique em Ver registros. Para mais informações, consulte Como usar o Explorador de registros.
    • Para investigar os dados no gráfico, clique em Ver no Metrics Explorer.
  • Anotações: fornece um registro das descobertas, dos resultados, das sugestões ou de outros comentários da investigação do incidente.
    • Para adicionar uma anotação, insira o texto no campo e clique em Adicionar comentário.
    • Para descartar o comentário, clique em Cancelar.

Também é possível confirmar, silenciar ou fechar incidentes na página de Detalhes do incidente. Para mais informações, consulte Como gerenciar incidentes.

Como gerenciar incidentes

Os incidentes estão em um dos seguintes estados:

  •  Aberto: o conjunto de condições da política está sendo atendido ou não há dados para indicar que a condição não é mais atendida. Se uma política contiver várias condições, os incidentes serão abertos, dependendo de como essas condições são combinadas. Veja Como combinar condições para saber mais.

  •  Reconhecido: o incidente está aberto e foi marcado manualmente como confirmado. Normalmente, esse status indica que o incidente está sendo investigado.

  •  Fechada: o sistema observou que a condição parou de ser atendida, você fechou o incidente ou sete dias se passaram sem uma observação de que a condição continuou sendo atendida de dados.

Ao configurar uma política de alertas, verifique se o estado estável fornece um sinal quando tudo está OK. Isso é necessário para garantir que o estado sem erros possa ser identificado e, se um incidente estiver aberto, para que esse incidente seja fechado. Se não houver sinal para indicar que uma condição de erro foi interrompida, depois que um incidente é aberto, ele permanece aberto por sete dias após o acionamento da política.

Por exemplo, se você criar uma política que notifique você quando a contagem de erros for maior que 0, certifique-se de produzir uma contagem de 0 erros quando não houver erros. Se a política retornar nulo ou vazio no estado livre de erros, não haverá sinal para indicar quando os erros foram interrompidos. Em algumas situações, a linguagem de consulta do Monitoring (MQL, na sigla em inglês) permite que você especifique um valor padrão, que será usado quando nenhum valor medido estiver disponível. Para um exemplo, consulte Como usar a proporção.

Como confirmar incidentes

Recomendamos que você marque um incidente como confirmado quando começar a investigar a causa dele.

Para marcar um incidente como confirmado, faça o seguinte:

  • No painel Incidentes do painel Alertas, clique em Ver todos os incidentes.
  • Na página Incidentes, encontre o incidente que você quer confirmar e siga um destes procedimentos:

    • Clique em  Mais opções e selecione Confirmar.
    • Abra a página de detalhes do incidente e clique em Reconhecer incidente.

Silenciar incidentes

Para fechar todos os incidentes abertos associados a uma condição de uma política de alertas, silencie um incidente associado a essa condição. Por exemplo, suponha que uma política de alertas tenha uma condição que monitora 10 séries temporais. A condição será atendida se alguma série temporal estiver acima do limite mínimo de um. Se cinco séries temporais excederem o limite, serão criados cinco incidentes. Se você silenciar qualquer um desses incidentes, todos os cinco incidentes serão fechados.

A liberação de um incidente não reconcilia a causa subjacente do incidente. Ou seja, se uma condição para essa política de alertas for atendida no próximo ciclo de alertas, um incidente dessa condição será aberto.

Quando uma política de alertas contém várias condições, silenciar um incidente para uma condição não fecha nenhum incidente aberto para as outras condições.

Para silenciar um incidente, faça o seguinte:

  • No painel Incidentes do painel Alertas, clique em Ver todos os incidentes.
  • Na página Incidentes, encontre o incidente que você quer silenciar, clique em  Mais opções e, em seguida, Silenciar associado. condição.

Como fechar incidentes

É possível permitir que o Monitoring feche um incidente ou, às vezes, encerre o incidente:

  • O Monitoring fecha automaticamente um incidente quando uma das seguintes situações ocorre:

    • Uma observação indica que a condição não é mais atendida.

    • Para condições de limite de métricas, quando nenhuma observação chega durante o fechamento automático da política de alertas. Para configurar a duração do fechamento automático, use o Console do Google Cloud ou a API Cloud Monitoring. Por padrão, a duração do fechamento automático é de sete dias. A duração mínima de fechamento automático é de 30 minutos.

    • Para condições de ausência de métrica, o Monitoring fecha um incidente quando nenhum dado chega 24 horas após a duração do fechamento automático da política de alertas expirar. Para configurar a duração do fechamento automático, use o Console do Google Cloud ou a API Cloud Monitoring. Por padrão, a duração do fechamento automático é de sete dias.

    Por exemplo, uma política de alertas gerou um incidente porque a latência da resposta HTTP foi maior que 2 segundos por 10 minutos consecutivos. Se a próxima medição da latência de resposta HTTP for menor ou igual a dois segundos, o incidente será fechado. Da mesma forma, se nenhum dado for recebido por sete dias, o incidente será fechado.

  • É possível fechar um incidente depois que as observações pararem de chegar.

    Se você fechar um incidente e receber dados que indiquem que a condição foi atendida, um incidente será criado.

    Fechar um incidente não fecha nenhum outro incidente aberto para a mesma política de alertas. Esse comportamento é diferente de silenciar um incidente, que fecha todos os incidentes abertos para a mesma condição.

Para fechar um incidente, faça o seguinte:

  1. No painel Incidentes do painel Alertas, clique em Ver todos os incidentes.
  2. Na página Incidentes, encontre o incidente que você quer fechar e siga um destes procedimentos:

    • Clique em  Mais opções e selecione Fechar este incidente.
    • Abra a página de detalhes do incidente e clique em Fechar incidente.

Se você vir a mensagem Unable to close incident with active conditions, o incidente não poderá ser fechado porque os dados foram recebidos no período de alerta mais recente.

Se você vir a mensagem Unable to close incident. Please try again in a few minutes., não foi possível encerrar o incidente devido a um erro interno.

A seguir