Incidentes para alertas baseados em métricas

Um incidente é um registro do acionamento de uma política de alertas. O Cloud Monitoring abre um incidente quando uma condição de uma política de alertas é atendida.

Nesta página, você aprende a visualizar, investigar e gerenciar incidentes para políticas de alertas baseadas em métricas.

Como encontrar incidentes

Para ver uma lista de incidentes, faça o seguinte:

  1. Na barra de ferramentas do Console do Cloud, clique em  Menu de navegação e selecione Monitoring:

    Acessar o Monitoramento

  2. No painel de navegação do Monitoring, selecione  Alerta:

    • O painel Resumo lista o número de incidentes em aberto.
    • O painel Incidents exibe os incidentes mais recentes. Para ocultar incidentes fechados na tabela, clique em Ocultar incidentes fechados.

Como encontrar incidentes mais antigos

O painel Incidents na página Alerting mostra os incidentes abertos mais recentes. Para localizar incidentes mais antigos, siga um destes procedimentos:

  • Para percorrer as entradas na tabela Incidents, clique em  Mais recente ou  Mais antigos.

  • Para acessar a página Incidents, clique em Ver todos os incidentes. Na página Incidents, é possível fazer o seguinte:

    • Ocultar incidentes fechados: para listar apenas incidentes abertos na tabela, clique em Ocultar incidentes fechados.
    • Incidentes de filtros: para informações sobre como adicionar filtros, consulte Como filtrar incidentes.
    • Reconhecer, silenciar ou fechar um incidente: Para acessar essas opções, clique em  Mais opções na linha do incidente e faça uma seleção de no menu. Para mais informações, consulte Como gerenciar incidentes.

Como filtrar incidentes

Quando você insere um valor na barra de filtros, somente os incidentes que correspondem ao filtro são listados na tabela Incidents. Se você adicionar vários filtros, um incidente será exibido somente se atender a todos os filtros.

Para adicionar um filtro à tabela de incidentes, faça o seguinte:

  1. Na página Incidents, clique em  Filtrar tabela e, em seguida, selecione uma propriedade de filtro. As propriedades de filtro incluem todas estas opções:

    • Estado do incidente
    • Nome da política de alertas
    • quando o incidente foi aberto ou fechado;
    • Tipo de métrica
    • Resource type
  2. Selecione um valor no menu secundário ou digite um valor na barra de filtro.

    Por exemplo, se você selecionar Tipo de métrica e inserir usage_time, poderá ver apenas as seguintes opções no menu secundário:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Como investigar incidentes

Para ver os detalhes de um incidente, você precisa ter, no mínimo, o papel de Gerenciamento de identidade e acesso de roles/monitoring.viewer. Para mais informações, consulte Não é possível ver os detalhes do incidente devido a um erro de permissão.

Depois de encontrar o incidente que você quer investigar, acesse a página Detalhes do incidente. Para ver os detalhes, clique no resumo do incidente na tabela de incidentes na página Alerta ou Incidentes.

Como alternativa, se você recebeu uma notificação com um link para o incidente, clique nele para ver os detalhes do incidente.

A captura de tela a seguir mostra a página de detalhes de um incidente:

A página de detalhes fornece informações resumidas e ferramentas investigativas de um incidente.

A página Detalhes do incidente apresenta as seguintes informações:

  • Informações de status, incluindo:

    • Nome: o nome da política de alertas que causou este incidente.
    • Status: o status do incidente, aberto, confirmado ou fechado.
    • Duração: o período em que o incidente esteve aberto.
  • Informações sobre a política de alertas que causou o incidente:

    • Condição: a condição na política de alertas que causou o incidente.
    • Mensagem: uma breve explicação da causa com base na configuração da condição na política de alertas. Esse painel é sempre preenchido.
    • Documentação: a documentação (opcional) para notificações fornecidas quando a política de alertas foi criada. Essas informações podem incluir uma descrição do que a política de alertas monitora e dicas para mitigação. Se você pulou este campo ao criar a política de alertas, o texto neste painel é "Nenhuma documentação está configurada".
  • Rótulos: os rótulos e valores do recurso monitorado e da métrica da série temporal que acionou a política de alertas. Essas informações podem ajudar a identificar o recurso monitorado específico que causou o incidente.

A página Detalhes de incidentes também fornece ferramentas para investigar o incidente:

  • Linha do tempo do incidente: mostra duas representações visuais do incidente:

    • Uma barra vermelha acima de um eixo de tempo representa o incidente. a duração e a posição da barra refletem a duração do incidente.
    • Um gráfico mostra os dados de série temporal e limite usados pela política de alertas que causou o incidente. O incidente foi aberto quando algumas séries temporais atenderam a uma condição da política de alertas.

    O eixo de tempo indica a duração do incidente com dois pontos rotulados. A posição desses pontos no eixo do tempo determina o intervalo de dados mostrado no gráfico que acompanha a linha do tempo do incidente. Por padrão, um ponto é posicionado na abertura do incidente e um no final do incidente ou no momento atual, se o incidente ainda estiver aberto.

    É possível modificar o intervalo de tempo no cronograma de incidentes e no gráfico:

    • Para alterar o intervalo mostrado no gráfico, arraste um dos pontos ao longo do eixo de tempo. Com essa técnica, é possível se concentrar em intervalos específicos, por exemplo, no início ou no final do incidente.

      Alterar o gráfico arrastando os pontos no eixo define um valor personalizado no menu Período e desativa o menu. Para ativar o menu Período, clique em Redefinir.

    • Para alterar o intervalo de tempo mostrado na linha do tempo, selecione um intervalo no menu Período.

  • Links para outras ferramentas de solução de problemas. A configuração do projeto e da política de alertas e a idade do incidente determinam quais links estão disponíveis.
    • Para ver a página de detalhes da política de alertas, clique em Ver política.
    • Para editar a definição da política de alertas, clique em Editar política.
    • Para acessar um painel de informações de desempenho do recurso, clique em Ver detalhes do recurso.
    • Para ver as entradas de registro relacionadas no Logs Explorer, clique em Visualizar registros. Para mais informações, consulte Como usar o Logs Explorer.
    • Para investigar os dados no gráfico, clique em Visualizar no Metrics Explorer.
  • Anotações: fornece um registro das descobertas, resultados, sugestões ou outros comentários da sua investigação do incidente.
    • Para adicionar uma anotação, digite o texto no campo e clique em Adicionar comentário.
    • Para descartar o comentário, clique em Cancelar.

Também é possível confirmar, silenciar ou fechar incidentes na página Detalhes do incidente. Para mais informações, consulte Como gerenciar incidentes.

Como gerenciar incidentes

Os incidentes estão em um dos seguintes estados:

  • Open: o conjunto de condições da política está sendo atendido ou não há dados para indicar que a condição não é mais atendida. Se uma política contiver várias condições, os incidentes serão abertos, dependendo de como essas condições são combinadas. Veja Como combinar condições para saber mais.

  •  Reconhecido: o incidente está aberto e foi marcado manualmente como confirmado. Normalmente, esse status indica que o incidente está sendo investigado.

  • Encerrada: O sistema observou que a condição parou de ser atendida, que você fechou o incidente, ou sete dias se passaram sem uma observação de que a condição continuou a ser atendida. para começar.

Ao configurar uma política de alertas, verifique se o estado estável fornece um sinal quando tudo está correto. Isso é necessário para garantir que o estado sem erros possa ser identificado e, se um incidente estiver aberto, para que esse incidente seja fechado. Se não houver sinal para indicar que uma condição de erro foi interrompida, depois que um incidente é aberto, ele permanece aberto por sete dias após o acionamento da política.

Por exemplo, se você criar uma política que notifique você quando a contagem de erros for maior que 0, certifique-se de produzir uma contagem de 0 erros quando não houver erros. Se a política retornar nulo ou vazio no estado livre de erros, não haverá sinal para indicar quando os erros foram interrompidos. Em algumas situações, a linguagem de consulta do Monitoring (MQL, na sigla em inglês) permite que você especifique um valor padrão, que será usado quando nenhum valor medido estiver disponível. Para um exemplo, consulte Como usar a proporção.

Para gerenciar incidentes, seu papel precisa incluir a permissão monitoring.alertPolicy.create ou monitoring.alertPolicy.update. Essas permissões estão incluídas no papel de Editor do Monitoring, roles/monitoring.editor. Para informações detalhadas sobre papéis e permissões, consulte Controle de acesso: papéis predefinidos.

Como confirmar incidentes

Recomendamos que você marque um incidente como confirmado quando começar a investigar a causa dele.

Para marcar um incidente como confirmado, faça o seguinte:

  • No painel Incidentes do painel Alerta, clique em Ver todos os incidentes.
  • Na página Incidents, encontre o incidente que você quer confirmar e siga um destes procedimentos:

    • Clique em  More options e selecione Acknowledge.
    • Abra a página de detalhes do incidente e clique em Confirmar incidente.

Como isolar incidentes

Para fechar todos os incidentes abertos associados a uma condição de uma política de alertas, silencie um incidente associado a essa condição. Por exemplo, suponha que uma política de alertas tenha uma condição que monitore 10 séries temporais. A condição será atendida se alguma série temporal ultrapassar um limite de uma. Se cinco das séries temporais excederem o limite, serão criados cinco incidentes. Se você silenciar qualquer um desses incidentes, todos os cinco incidentes serão fechados.

A remoção de um incidente não reconcilia a causa subjacente do incidente. Ou seja, se uma condição para essa política de alertas for atendida no próximo ciclo de alerta, um incidente para essa condição será aberto.

Quando uma política de alertas contém várias condições, encerrar um incidente para uma condição não fecha nenhum incidente que esteja aberto para as outras condições.

Para silenciar um incidente, faça o seguinte:

  • No painel Incidentes do painel Alerta, clique em Ver todos os incidentes.
  • Na página Incidentes, encontre o incidente que você quer silenciar, clique em  Mais opções e, em seguida, selecione Silencios associados condição.

Como fechar incidentes

É possível permitir que o Monitoring feche um incidente ou, em alguns casos, você pode fechá-lo:

  • O Monitoring fecha automaticamente um incidente quando ele observa que a condição não é mais atendida ou quando sete dias se passaram sem uma observação de que a condição ainda está sendo atendida.

    Por exemplo, imagine que você tem uma política de alertas configurada para gerar um incidente se a latência da resposta HTTP estiver acima de 2 segundos por 10 minutos consecutivos e que um incidente foi aberto. Se a próxima medição da latência HTTP for igual ou inferior a 2 segundos, o incidente será resolvido. Da mesma forma, se nenhum dado for recebido por sete dias, o incidente será fechado.

  • Você pode fechar um incidente se as observações pararem de chegar.

    Se você fechar um incidente e os dados que indicarem que a condição foi atendida, um incidente será criado.

    O fechamento de um incidente não fecha outros incidentes abertos para a mesma política de alertas. Esse comportamento é diferente do que acontece ao silenciar um incidente, o que fecha todos os incidentes abertos para a mesma condição.

Para fechar um incidente, faça o seguinte:

  1. No painel Incidentes do painel Alerta, clique em Ver todos os incidentes.
  2. Na página Incidents, encontre o incidente que você quer fechar e siga um destes procedimentos:

    • Clique em  Mais opções e selecione Fechar este incidente.
    • Abra a página de detalhes do incidente e clique em Fechar incidente.

Se a mensagem Unable to close incident with active conditions for exibida, o incidente não poderá ser fechado porque os dados foram recebidos no período de alertas mais recente.

Se você vir a mensagem Unable to close incident. Please try again in a few minutes., significa que não foi possível fechar o incidente devido a um erro interno.

A seguir