Gerenciar incidentes de alertas baseados em registros

Um incidente é um registro de quando a condição ou condições de uma política de alertas foram atendidas. Normalmente, quando as condições são atendidas, o Cloud Monitoring abre um incidente e envia uma notificação quando um registro é recebido e corresponde à condição da política de alertas com base em registros. No entanto, eles não são criados nas seguintes circunstâncias:

  • A política foi adiada ou desativada.
  • A taxa máxima de notificações excederia o limite de uma notificação a cada cinco minutos para cada alerta com base em registro.
  • O total diário de notificações excederia o limite de 20 notificações por dia para cada alerta com base em registro.

Neste documento, descrevemos como ver, investigar e gerenciar incidentes de políticas de alertas com base em registros.

Antes de começar

Verifique se você tem as permissões necessárias:

Para mais informações sobre os papéis do Cloud Monitoring, consulte Controlar o acesso com o Identity and Access Management.

Encontrar incidentes

Para ver uma lista de incidentes, faça o seguinte:

  1. No painel de navegação do console do Google Cloud, selecione Monitoramento e  Alertas:

    Acessar Alertas

    • O painel Resumo lista o número de incidentes abertos.
    • O painel Incidentes exibe os incidentes abertos mais recentes. Para listar os incidentes mais recentes na tabela, incluindo aqueles que foram fechados, clique em Mostrar incidentes fechados.
  2. Opcional: para ver os detalhes de um incidente específico, selecione o incidente na lista. A página Detalhes do incidente é aberta. Consulte a seção Investigar incidentes para saber mais.

Encontrar incidentes mais antigos

O painel Incidentes na página Alertas mostra os incidentes abertos mais recentes. Para localizar incidentes mais antigos, siga um destes procedimentos:

  • Para percorrer as entradas na tabela Incidentes, clique em  Mais recentes ou em  Mais antigos.

  • Para acessar a página Incidentes, clique em Ver todos os incidentes. Na página Incidentes, é possível fazer tudo o seguinte:

    • Mostrar incidentes fechados: para listar todos os incidentes na tabela, clique em Mostrar incidentes fechados.
    • Filtrar incidentes: para informações sobre como adicionar filtros, consulte Filtrar incidentes.
    • Reconheça ou encerre um incidente ou adie a política de alertas. Para acessar essas opções, clique em  Mais opções na linha do incidente e selecione uma opção no menu. Para saber mais, consulte Gerenciar incidentes.

Filtrar incidentes

Quando você insere um valor na barra de filtro, apenas os incidentes correspondentes ao filtro são listados na tabela Incidentes. Se você adicionar vários filtros, um incidente será exibido somente se atender a todos os filtros.

Para adicionar um filtro à tabela de incidentes, faça o seguinte:

  1. Na página Incidentes, clique em  Filtrar tabela e selecione uma propriedade de filtro. As propriedades de filtro incluem o seguinte:

    • Estado do incidente
    • Nome da política de alertas
    • quando o incidente foi aberto ou fechado;
  2. Selecione um valor no menu secundário ou digite um valor na barra de filtro.

Investigar incidentes

Depois de encontrar o incidente que você quer investigar, acesse a página Detalhes do incidente. Para ver os detalhes, selecione o resumo na tabela de incidentes na página Alertas ou Incidentes.

Como alternativa, se você recebeu uma notificação que inclui um link para o incidente, use esse link para ver os detalhes.

A página Detalhes do incidente apresenta as seguintes informações:

  • Informações de status, incluindo:

    • Nome: o nome da política de alertas que causou o incidente.
    • Status: o status do incidente: aberto, confirmado ou fechado.
    • Gravidade: a gravidade do incidente.
      • Sem gravidade
      • Crítica
      • Erro
      • Aviso
    • Duração: o período em que o incidente ficou aberto.
  • Um painel Registros, que exibe entradas de registro correspondentes à consulta de alerta. O painel permite filtrar essas entradas como parte da sua investigação.

    Para atualizar a lista de entradas de registro, clique em  Atualizar. Para acessar os registros na Análise de registros, clique em  Ver na Análise de registros.

  • Informações sobre a política de alertas que causou o incidente:

    • Painel Condição: identifica a condição na política de alertas que causou o incidente. Para políticas de alertas com base em registros criadas com a Análise de registros, o nome da condição é sempre "Condição de correspondência de registro".

      Esse painel também informa o tempo entre as notificações e a duração do fechamento automático da política de alertas.

    • Painel Mensagem: fornece uma breve explicação da causa com base na configuração da condição na política de alertas. Esse painel é sempre preenchido.

    • Painel Documentação: mostra o modelo de documentação das notificações que você forneceu ao criar a política de alertas. Essas informações podem incluir uma descrição do que a política de alertas monitora e dicas de mitigação.

      Se você pulou esse campo ao criar a política de alertas, o painel vai mostrar a mensagem "Nenhuma documentação está configurada".

  • Rótulos: informa o seguinte:
    • Os rótulos e valores do recurso monitorado incluídos na entrada de registro que causou o incidente. Essas informações podem ajudar a identificar o recurso monitorado específico que causou o incidente. Esses rótulos também são informados na string Message.
    • Quaisquer rótulos e valores especificados pelo usuário que você definiu na política de alertas. É possível usar esses rótulos para organizar e identificar políticas de alertas. Os rótulos associados a uma política são listados na seção Rótulos de política. Já os rótulos definidos como parte de uma condição são listados na seção Rótulos de métrica. Os rótulos de metadados são exibidos somente quando há um filtro ou agrupamento que depende do rótulo. Para mais informações, consulte Anotar alertas com rótulos.

A página Detalhes de incidentes também fornece ferramentas para investigar o incidente:

  • Links para outras ferramentas de solução de problemas. A configuração do projeto e da política de alertas e a idade do incidente determinam quais links estão disponíveis.
    • Para ver a página de detalhes da política de alertas, clique em Ver política.
    • Para editar a definição da política de alertas, clique em Editar política.
    • Para ver as entradas relacionadas no Explorador de registros, clique em Ver registros. Para mais informações, acesse Ver registros usando a Análise de registros.
  • Anotações: fornece um registro das descobertas, dos resultados, das sugestões ou de outros comentários da investigação do incidente.
    • Para adicionar uma anotação, insira o texto no campo e clique em Adicionar comentário.
    • Para descartar o comentário, clique em Cancelar.

Gerenciar incidentes

Os incidentes estão em um dos seguintes estados:

  • Aberto: a condição da política de alertas com base em registros foi atendida e o incidente ainda está aberto. Se a mesma condição for atendida novamente e já houver um incidente aberto, um novo incidente não será aberto.

  •  Reconhecido: o incidente está aberto e foi marcado manualmente como confirmado. Normalmente, esse status indica que o incidente está sendo investigado.

  • Fechado: você fechou manualmente o incidente ou ele foi fechado automaticamente após a expiração do período de fechamento automático.

Como confirmar incidentes

Recomendamos que você marque um incidente como confirmado quando começar a investigar a causa dele.

Para marcar um incidente como confirmado, faça o seguinte:

  • No painel Incidentes da página Alertas, clique em Ver todos os incidentes.
  • Na página Incidentes, encontre o incidente que você quer confirmar e siga um destes procedimentos:

    • Clique em  Mais opções e selecione Confirmar.
    • Abra a página de detalhes do incidente e clique em Confirmar incidente.

Adiar uma política de alertas

Para impedir que o Monitoring crie incidentes e envie notificações durante um período específico, adie a política de alertas relacionada. Quando você adia uma política de alertas, os incidentes relacionados a ela permanecem abertos, mas não causam mais notificações. Os incidentes são encerrados com base na duração do fechamento automático da política de alertas.

Para criar um adiamento para um incidente que você está visualizando, faça o seguinte:

  1. Na página Detalhes do incidente, clique em Adiar.

  2. Selecione a duração do adiamento. Depois que você seleciona a duração do adiamento, ele começa imediatamente.

Ao visualizar a página de detalhes de um incidente, você pode criar um adiamento para a política de alertas relacionada clicando em Soneca e escolhendo uma duração. O adiamento começa imediatamente. Também é possível adiar uma política de alertas na página Incidentes. Para isso, encontre o incidente que você quer adiar, clique em  Mais opções e selecione Adiar. É possível adiar políticas de alertas durante interrupções para evitar mais notificações durante o processo de solução de problemas.

Fechar incidentes

É possível encerrar ou permitir que o Monitoring feche um incidente.

O Monitoring fecha automaticamente um incidente quando a duração do fechamento automático da política de alertas expira. Por padrão, a duração do fechamento automático é de 7 dias. A duração mínima de fechamento automático é de 30 minutos.

Para fechar um incidente, faça o seguinte:

  1. No painel Incidentes da página Alertas, clique em Ver todos os incidentes.
  2. Na página Incidentes, encontre o incidente que você quer fechar e siga um destes procedimentos:

    • Clique em  View more e selecione Fechar incidente.
    • Abra a página de detalhes do incidente e clique em Fechar incidente.
Se você vir a mensagem Unable to close incident, tente novamente depois de alguns minutos. Não é possível encerrar um novo incidente imediatamente porque as condições que o causaram ainda são consideradas ativas pelo sistema de alertas.

Retenção e limites de dados

Para informações sobre limites e sobre o período de armazenamento de incidentes, consulte Limites para alertas.

A seguir