Incidentes para alertas com base em métricas

Um incidente, também chamado de alerta, é um registro do acionamento de uma política de alertas. Normalmente, o Cloud Monitoring abre um incidente e envia uma notificação quando uma condição de política de alertas é acionada. No entanto, incidentes não são criados quando a política é adiada ou desativada, quando há muitos incidentes abertos para essa política ou quando o recurso subjacente está desativado. Além disso, quando uma política de alertas contém várias condições, a combinação delas determina se o acionamento de uma condição causa a criação de incidentes.

Neste documento, descrevemos como ver, investigar e gerenciar incidentes de políticas de alertas com base em métricas.

Antes de começar

Verifique se você tem as permissões necessárias:

Para mais informações sobre os papéis do Cloud Monitoring, consulte Controlar o acesso com o Identity and Access Management.

Encontrar incidentes

Para ver uma lista de incidentes, faça o seguinte:

  1. No painel de navegação do console do Google Cloud, selecione Monitoramento e  Alertas:

    Acessar Alertas

    • O painel Resumo lista o número de incidentes abertos.
    • O painel Incidents exibe os incidentes abertos mais recentes. Para listar os incidentes mais recentes na tabela, incluindo aqueles que foram fechados, clique em Mostrar incidentes fechados.
  2. Opcional: para ver os detalhes de um incidente específico, selecione o incidente na lista. A página Detalhes do incidente é aberta. Consulte a seção Como investigar incidentes para mais informações.

Encontrar incidentes mais antigos

O painel Incidentes na página Alertas mostra os incidentes abertos mais recentes. Para localizar incidentes mais antigos, siga um destes procedimentos:

  • Para percorrer as entradas na tabela Incidentes, clique em  Mais recentes ou em  Mais antigos.

  • Para acessar a página Incidentes, clique em Ver todos os incidentes. Na página Incidentes, você pode fazer o seguinte:

    • Mostrar incidentes fechados: para listar todos os incidentes na tabela, clique em Mostrar incidentes fechados.
    • Filtrar incidentes: para mais informações sobre como adicionar filtros, consulte Como filtrar incidentes.
    • Confirme ou feche um incidente ou adie a política de alertas. Para acessar essas opções, clique em  Mais opções na linha do incidente e selecione uma opção no menu. Para mais informações, consulte Como gerenciar incidentes.

Filtrar incidentes

Quando você insere um valor na barra de filtro, apenas os incidentes correspondentes ao filtro são listados na tabela Incidentes. Se você adicionar vários filtros, um incidente será exibido somente se atender a todos os filtros.

Para adicionar um filtro à tabela de incidentes, faça o seguinte:

  1. Na página Incidentes, clique em  Filtrar tabela e selecione uma propriedade de filtro. As propriedades de filtro incluem o seguinte:

    • Estado do incidente
    • Nome da política de alertas
    • quando o incidente foi aberto ou fechado;
    • Tipo de métrica
    • Resource type
  2. Selecione um valor no menu secundário ou digite um valor na barra de filtro.

    Por exemplo, se você selecionar Tipo de métrica e inserir usage_time, poderá ver apenas as seguintes opções no menu secundário:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

Investigar incidentes

Depois de encontrar o incidente que você quer investigar, acesse a página Detalhes do incidente. Para ver os detalhes, selecione o resumo na tabela, na página Alertas ou Incidentes.

Como alternativa, se você recebeu uma notificação que inclui um link para o incidente, pode usar esse link para ver os detalhes do incidente.

A página Detalhes do incidente apresenta as seguintes informações:

  • Informações de status, incluindo:

    • Nome: o nome da política de alertas que causou esse incidente.
    • Status: o status do incidente: aberto, confirmado ou fechado.
    • Gravidade: a gravidade do incidente:
      • Sem gravidade
      • Crítica
      • Erro
      • Aviso
    • Duração: o tempo que o incidente permaneceu aberto.
  • Informações sobre a política de alertas que causou o incidente:

    • Painel Condição: identifica a condição na política de alertas que causou o incidente.

    • Painel Mensagem: fornece uma breve explicação da causa com base na configuração da condição na política de alertas. Esse painel é sempre preenchido.

    • Painel Documentation: mostra o modelo de documentação das notificações que você forneceu ao criar a política de alertas. Essas informações podem incluir uma descrição do que a política de alertas monitora e dicas para mitigação.

      Se você pulou esse campo ao criar a política de alertas, o painel vai mostrar a mensagem "Nenhuma documentação está configurada".

  • Rótulos: informa o seguinte:
    • Os rótulos e valores do recurso monitorado e da métrica da série temporal que acionou a política de alertas. Essas informações podem ajudar você a identificar o recurso monitorado específico que causou o incidente.

      Quando você usa variáveis na documentação para rótulos de métricas, o Monitoring omite o rótulo das notificações quando o valor dele não começa com um dígito, uma letra, uma barra (/) ou um sinal de igual (=).

    • Todos os rótulos e valores especificados pelo usuário na política de alertas. Use esses rótulos para organizar e identificar políticas de alertas. Os rótulos associados a uma política são listados na seção Rótulos de política. Já os rótulos definidos como parte de uma condição são listados na seção Rótulos de métrica. Os rótulos de metadados só são exibidos quando há um filtro ou agrupamento que depende do rótulo. Por exemplo, consulte Adicionar níveis de gravidade a uma política de alertas.

A página Detalhes de incidentes também fornece ferramentas para investigar o incidente:

  • Linha do tempo de incidentes: mostra duas representações visuais do incidente:

    • Na linha do tempo, uma barra vermelha representa o tempo de um incidente. A extensão e a posição da barra refletem a duração do incidente.
    • Um gráfico mostra os dados e o limite de séries temporais usados pela política de alertas que causou o incidente. O incidente foi aberto quando alguma série temporal atendeu a uma condição da política de alertas.

    O eixo de tempo indica a duração do incidente com dois pontos rotulados. A posição desses pontos no eixo de tempo determina o intervalo de dados mostrado no gráfico que acompanha a linha do tempo do incidente. Por padrão, um ponto é posicionado na abertura do incidente e outro no fechamento do incidente ou no horário atual, se o incidente ainda estiver aberto.

    É possível modificar o intervalo de tempo na linha do tempo do incidente e no gráfico:

    • Para alterar o período mostrado no gráfico, arraste um dos pontos ao longo do eixo do tempo. Ao usar essa técnica, é possível se concentrar em intervalos específicos, como o início ou o fim do incidente, por exemplo.

      Alterar o gráfico arrastando os pontos no eixo define um valor personalizado no menu Período e desativa o menu. Para ativar o menu Período, clique em Redefinir.

    • Para mudar o intervalo de tempo mostrado na linha do tempo, selecione um intervalo no menu Período.
  • Links para outras ferramentas de solução de problemas. A configuração do projeto e da política de alertas e a idade do incidente determinam quais links estão disponíveis.
    • Para ver a página de detalhes da política de alertas, clique em Ver política.
    • Para editar a definição da política de alertas, clique em Editar política.
    • Para acessar um painel de informações de desempenho do recurso, clique em Visualizar detalhes do recurso.
    • Para ver as entradas relacionadas no Explorador de registros, clique em Ver registros. Para mais informações, consulte Como usar o Explorador de registros.
    • Para investigar os dados no gráfico, clique em Ver no Metrics Explorer.
  • Anotações: fornece um registro das descobertas, dos resultados, das sugestões ou de outros comentários da investigação do incidente.
    • Para adicionar uma anotação, insira o texto no campo e clique em Adicionar comentário.
    • Para descartar o comentário, clique em Cancelar.

Gerenciar incidentes

Os incidentes estão em um dos seguintes estados:

  • Aberto: o conjunto de condições da política de alertas está sendo atendido ou não há dados para indicar que a condição não está mais atendida. Se uma política de alertas contiver várias condições, os incidentes serão abertos dependendo de como elas são combinadas. Veja Como combinar condições para saber mais.

  •  Reconhecido: o incidente está aberto e foi marcado manualmente como confirmado. Normalmente, esse status indica que o incidente está sendo investigado.

  •  Fechada: o sistema observou que a condição parou de ser atendida, você fechou o incidente ou sete dias se passaram sem uma observação de que a condição continuou sendo atendida de dados.

Ao configurar uma política de alertas, verifique se o estado estável fornece um sinal quando tudo está OK. Isso é necessário para garantir que o estado sem erros possa ser identificado e, se um incidente estiver aberto, para que esse incidente seja fechado. Se não houver sinal para indicar que uma condição de erro foi interrompida, após a abertura de um incidente, ele permanecerá aberto por sete dias após o disparo da política de alertas.

Por exemplo, se você criar uma política de alertas que notifica quando a contagem de erros é maior que zero, verifique se ela produz uma contagem de erros quando não há nenhum. Se a política de alertas retornar nulo ou vazio no estado sem erros, não haverá sinal para indicar quando os erros foram interrompidos. Em algumas situações, a linguagem de consulta do Monitoring (MQL, na sigla em inglês) permite que você especifique um valor padrão, que será usado quando nenhum valor medido estiver disponível. Para um exemplo, consulte Como usar a proporção.

Como confirmar incidentes

Recomendamos que você marque um incidente como confirmado quando começar a investigar a causa dele.

Para marcar um incidente como confirmado, faça o seguinte:

  • No painel Incidents da página Alertas, clique em Ver todos os incidentes.
  • Na página Incidentes, encontre o incidente que você quer confirmar e siga um destes procedimentos:

    • Clique em  Mais opções e selecione Confirmar.
    • Abra a página de detalhes do incidente e clique em Confirmar incidente.

Se a política de alertas estiver configurada para enviar notificações repetidas, a confirmação de um incidente não vai interromper as notificações. Para interrompê-los, siga um destes procedimentos:

  • Crie um adiamento para a política de alertas.
  • Desative a política de alertas.

Suspender uma política de alertas

Para impedir que o Monitoring crie incidentes e envie notificações durante um período específico, adie a política de alertas relacionada. Quando você adia uma política de alertas, o Monitoring também fecha todos os incidentes relacionados a ela.

Para criar um adiamento para um incidente que você está visualizando, faça o seguinte:

  1. Na página Detalhes do incidente, clique em Suspender.

  2. Selecione a duração do adiamento. Depois de selecionar a duração do adiamento, ele será iniciado imediatamente.

Ao abrir a página de detalhes de um incidente, é possível criar um adiamento para a política de alertas relacionada clicando em Adiar e escolhendo uma duração. O adiamento começará imediatamente. Também é possível adiar uma política de alertas na página Incidentes. Para isso, encontre o incidente que você quer adiar, clique em  Mais opções e selecione Adiar. É possível adiar políticas de alertas durante interrupções para evitar mais notificações durante o processo de solução de problemas.

Fechar incidentes

É possível permitir que o Monitoring encerre um incidente para você ou poderá fechar um incidente depois que as observações pararem de chegar. Se você fechar um incidente e depois receber dados que indicam que a condição foi atendida, um novo incidente será criado. Quando você fecha um incidente, essa ação não encerra outros incidentes abertos para a mesma condição. Se você suspender uma política de alertas, os incidentes abertos serão fechados quando o adiamento for iniciado.

O Monitoring fecha automaticamente um incidente quando uma das seguintes situações ocorre:

  • Condições de limite de métrica:

    • Uma observação chega indicando que o limite não foi violado.
    • Nenhuma observação chega, a condição é configurada para fechar incidentes quando as observações param de chegar e o estado do recurso subjacente é desconhecido ou não está desativado.

    • Nenhuma observação chega durante o fechamento automático da política de alertas, e a condição não está configurada para fechar incidentes automaticamente quando as observações param de chegar. Para configurar a duração do fechamento automático, use o console do Google Cloud ou a API Cloud Monitoring. Por padrão, a duração do fechamento automático é de sete dias. A duração mínima de fechamento automático é de 30 minutos.

  • Condições de ausência de métrica:

    • Uma observação ocorre.
    • Nenhuma observação chega por 24 horas após a expiração do fechamento automático da política de alertas. Para configurar a duração do fechamento automático, use o console do Google Cloud ou a API Cloud Monitoring. Por padrão, a duração do fechamento automático é de sete dias.
  • Condições de previsão:

    • Uma previsão é produzida e prevê que a série temporal não vai violar o limite dentro da janela de previsão.
    • Nenhuma observação chega por 10 minutos, a condição é configurada para fechar incidentes quando as observações param de chegar e o estado do recurso subjacente é desconhecido ou não está desativado.

    • Nenhuma observação chega durante o fechamento automático da política de alertas, e a condição não está configurada para fechar incidentes automaticamente quando as observações param de chegar.

Por exemplo, uma política de alertas gerou um incidente porque a latência da resposta HTTP foi maior que 2 segundos por 10 minutos consecutivos. Se a próxima medição da latência de resposta HTTP for menor ou igual a dois segundos, o incidente será fechado. Da mesma forma, se nenhum dado for recebido por sete dias, o incidente será fechado.

Para fechar um incidente, faça o seguinte:

  1. No painel Incidents da página Alertas, clique em Ver todos os incidentes.
  2. Na página Incidentes, encontre o incidente que você quer fechar e siga um destes procedimentos:

    • Clique em  Ver mais e selecione Fechar incidente.
    • Abra a página de detalhes do incidente e clique em Fechar incidente.

Se você vir a mensagem Unable to close incident with active conditions, o incidente não poderá ser fechado porque os dados foram recebidos no período de alerta mais recente.

Se você vir a mensagem Unable to close incident. Please try again in a few minutes., não foi possível encerrar o incidente devido a um erro interno.

Retenção e limites de dados

Para informações sobre limites e o período de armazenamento de incidentes, consulte Limites para verificações de alerta e tempo de atividade.

A seguir

* Para um tratamento conceitual detalhado de políticas de alertas, consulte Comportamento de alertas.