- A política foi adiada ou desativada.
- A taxa máxima de notificações excederia o limite de 1 notificação a cada 5 minutos para cada política de alertas com base em registros.
- O total diário de notificações excederia o limite de 20 notificações por dia para cada política de alertas baseada em registro.
Para cada incidente, o Monitoring cria uma página Detalhes do incidente que permite gerenciar o incidente e informa informações sobre o incidente que podem ajudar a resolver a falha. Por exemplo, a página Detalhes do incidente mostra a linha do tempo e um gráfico que mostra os dados das métricas que estão sendo monitoradas. Você também pode encontrar links para incidentes relacionados e entradas de registro.
Neste documento, descrevemos como encontrar incidentes. Ela também descreve como usar a página Detalhes do incidente para gerenciar incidentes para políticas de alertas baseadas em métricas, que avaliam dados de séries temporais armazenados pelo Cloud Monitoring.
Antes de começar
Verifique se você tem as permissões necessárias:
Para receber as permissões necessárias para visualizar e gerenciar incidentes usando o console do Google Cloud, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
-
Conferir incidentes usando o console do Google Cloud:
-
Leitor de incidentes do console do Cloud Monitoring (
roles/monitoring.cloudConsoleIncidentViewer
) -
Leitor de contas do Stackdriver (
roles/stackdriver.accounts.viewer
)
-
Leitor de incidentes do console do Cloud Monitoring (
-
Gerenciar incidentes usando o console do Google Cloud:
-
Editor de incidentes do Console do Cloud Monitoring (
roles/monitoring.cloudConsoleIncidentEditor
) -
Leitor de contas do Stackdriver (
roles/stackdriver.accounts.viewer
)
-
Editor de incidentes do Console do Cloud Monitoring (
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Para mais informações sobre os papéis do Cloud Monitoring, consulte Controlar o acesso com o Identity and Access Management.
Encontrar incidentes
Para ver uma lista de incidentes no seu projeto do Google Cloud, faça o seguinte:
-
No console do Google Cloud, acesse a página notifications Alertas:
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoramento.
- O painel Resumo lista o número de incidentes abertos.
- O painel Incidentes mostra os incidentes abertos mais recentes. Para listar os incidentes mais recentes na tabela, incluindo aqueles que foram fechados, clique em Mostrar incidentes fechados.
Para ver os detalhes de um incidente específico, selecione o na lista.
A página Detalhes do incidente é aberta. Para mais informações sobre a página Detalhes do incidente, consulte a seção Investigar um incidente desta página.
Encontrar incidentes antigos
O painel Incidentes na página Alertas mostra os incidentes abertos mais recentes. Para localizar incidentes mais antigos, siga um destes procedimentos:
Para percorrer as entradas na tabela Incidentes, clique em arrow_back_ios Mais recentes ou em arrow_forward_ios Mais antigos.
Para acessar a página Incidentes, clique em Ver todos os incidentes. Na página Incidentes, é possível fazer o seguinte:
- Mostrar incidentes fechados: para listar todos os incidentes na tabela, Clique em Mostrar incidentes fechados.
- Filtrar incidentes: para mais informações sobre como adicionar filtros, consulte Filtrar incidentes.
- Confirmar ou fechar um incidente ou adiar a política de alertas. Para acessar essas opções, clique em more_vert Mais opções na linha do incidente e faça uma seleção no menu. Para mais informações, consulte Gerenciar incidentes.
Filtrar incidentes
Quando você insere um valor na barra de filtro, apenas os incidentes correspondentes ao filtro são listados na tabela Incidentes. Se você adicionar vários filtros, um incidente será exibido somente se atender a todos os filtros.
Para adicionar um filtro à tabela de incidentes, faça o seguinte:
Na página Incidentes, clique em filter_list Filtrar tabela e selecione uma propriedade de filtro. As propriedades de filtro incluem todas as seguinte:
- Estado do incidente
- Nome da política de alertas
- quando o incidente foi aberto ou fechado;
- Tipo de métrica
- Resource type
Selecione um valor no menu secundário ou digite um valor na barra de filtro.
Por exemplo, se você selecionar Tipo de métrica e inserir
usage_time
, poderá ver apenas as seguintes opções no menu secundário:agent.googleapis.com/cpu/usage_time compute.googleapis.com/guest/container/cpu/usage_time container.googleapis.com/container/cpu/usage_time
Investigar um incidente
A página Detalhes do incidente contém informações que podem ajudar você a identificar a causa de um incidente.
Analisar dados de métricas
Para analisar o estado da métrica antes e depois do incidente, use o gráfico Métricas de alerta. Este gráfico mostra uma linha do tempo série temporal que causaram a condição da política de alertas precisam ser atendidos.
Você pode ajustar o intervalo da linha do tempo para procurar tendências e padrões nos seus dados de métricas relativos ao incidente:
Para alternar entre a exibição apenas da série temporal que causou a condição e a exibição de todas as séries temporais que a condição avalia, clique em toggle_off Mostrar todas as séries temporais.
Para mudar o intervalo de tempo mostrado pelo gráfico, use a opção na barra de ferramentas ou destaque períodos no gráfico com sua ponteiro.
Você também pode analisar seus dados de métricas em mais detalhes visualizando-os no Metrics Explorer: Para fazer isso, acesse o gráfico Alert Metrics e clique em query_stats Explorar dados. Por padrão, o Metrics Explorer agrega e filtra dados de métricas para que o gráfico seja alinhado à série temporal mostrada na linha do tempo Métricas de alerta.
Analisar entradas de registro
O painel Logs na página Detalhes do incidente mostra entradas de registro que correspondem ao tipo e aos identificadores do recurso monitorado para a métrica. É possível analisar essas entradas de registro para encontrar informações adicionais que possam ajudar a solucionar seu incidente.
- Para conferir as entradas de registro no Análise de registros, clique em Ver no Análise de registros e selecione um projeto de definição de escopo. O Explorador de registros oferece outras ferramentas para analisar dados de entradas de registro, como uma linha do tempo de quando as entradas de registro relacionadas foram criadas.
- Para visualizar e editar a consulta usada para filtrar as entradas de registro na Metrics Explorer, clique em query_stats Explorar dados.
Conferir informações complementares
A seção Rótulos mostra os rótulos e valores do recurso monitorado e da métrica da série temporal que causou o incidente, além dos rótulos de usuário definidos na política de alertas. Essas informações podem ajudar a identificar o recurso monitorado específico que causou o incidente. Para mais informações, consulte Anotar incidentes com rótulos.
A seção Documentação mostra o modelo de documentação para as notificações que você forneceu ao criar a política de alertas. Essas informações podem incluir uma descrição do que o e monitoramento de políticas e incluem dicas para mitigação. Para mais informações, consulte Anotar notificações com documentação definida pelo usuário.
Se você não tiver configurado a documentação da política de alertas, o painel Documentação mostrará "Nenhuma documentação está configurada".
Analisar incidentes relacionados
Para ajudar a descobrir problemas subjacentes no seu aplicativo, você pode analisar incidentes relacionados a outras condições de política de alertas.
A seção Incidentes relacionados mostra uma lista de incidentes. que correspondam a um dos seguintes:- O incidente foi criado quando uma condição da mesma política de alertas foi atendidas.
- O incidente tem um rótulo que indica o incidente página de detalhes.
Gerenciar incidentes
Os incidentes estão em um dos seguintes estados:
error Abrir: O conjunto de condições da política de alertas está sendo atendido ou não há dados para indicar que a condição não está mais atendida. Se uma política de alertas tiver várias condições, os incidentes são abertos dependendo sobre como essas condições são combinadas. Para mais informações, consulte Políticas com várias condições.
warning Reconhecido: o incidente está aberto e foi marcado manualmente como confirmado. Normalmente, esse status indica que o incidente está sendo investigado.
check_circle Fechada: o sistema observou que a condição parou de ser atendida, você fechou o incidente ou sete dias se passaram sem uma observação de que a condição continuou sendo atendida de dados.
Por exemplo, se você criar uma política de alerta que notifique você quando a contagem de erros for maior que 0, certifique-se de produzir uma contagem de 0 erros quando não houver erros. Se a política de alertas retornar nulo ou vazio no estado livre de erros, então não haverá sinal para indicar quando o pararam. Em algumas situações, a linguagem de consulta do Monitoring (MQL, na sigla em inglês) permite que você especifique um valor padrão, que será usado quando nenhum valor medido estiver disponível. Para conferir um exemplo, consulte Usar a proporção.
Confirmar incidentes
Recomendamos que você marque um incidente como confirmado quando começar a investigar a causa dele.
Para marcar um incidente como confirmado, faça o seguinte:
- No painel Incidentes da página Alertas, clique em Ver todos os incidentes.
Na página Incidentes, encontre o incidente que você quer confirmar e siga um destes procedimentos:
- Clique em more_vert Mais opções e selecione Confirmar.
- Abra a página de detalhes do incidente e clique em Confirmar incidente.
Se a política de alertas estiver configurada para enviar notificações repetidas e confirmar uma incidente não interrompe as notificações. Para interrompê-los, siga um destes procedimentos:
- Crie um adiamento para a política de alertas.
- Desativar a política de alertas.
Adiar uma política de alertas
Para impedir que o Monitoring crie incidentes e envie notificações durante um período específico, adie a política de alertas relacionada. Quando você adia uma política de alertas, o Monitoring também encerra incidentes relacionados à política de alertas.
Para criar um adiamento para um incidente que você está visualizando, faça o seguinte:
Na página Detalhes do incidente, clique em Política de suspensão.
Selecione a duração da suspensão. Depois de selecionar a duração do adiamento, ele começa imediatamente.
Também é possível suspender uma política de alerta na página Incidentes. Encontre o incidente que você quer suspender, clique em more_vert Mais opções e selecione Suspender. É possível adiar as políticas de alertas durante interrupções para evitar notificações durante o processo de solução de problemas.
Fechar incidentes
É possível deixar o Monitoring fechar um incidente para você ou encerrar um incidente depois que as observações param de chegar. Se você encerrar um incidente e receber dados que indicam a condição um novo incidente é criado. Quando você fecha um incidente, essa ação não fecha nenhum outro incidente aberto para a mesma condição. Se você adiar uma política de alertas, incidentes abertos serão fechado quando a soneca for iniciada.
O Monitoring fecha automaticamente um incidente quando uma das seguintes situações ocorre:
Condições de limite de métrica:
- Uma observação chega indicando que o limite não foi violado.
Nenhuma observação chega, a condição é configurada para fechar incidentes quando as observações param de chegar, e o estado do recurso subjacente é desconhecido ou não está desativado.
Nenhuma observação chega durante a duração do fechamento automático do alerta. e se a condição não estiver configurada para encerrar incidentes automaticamente quando as observações param de chegar. Para configurar o fechamento automático use o console do Google Cloud ou a API Cloud Monitoring. Por padrão, a duração do fechamento automático é de sete dias. A duração mínima de fechamento automático é de 30 minutos.
Condições de ausência de métrica:
- ocorre uma observação.
- Nenhuma observação chega por 24 horas depois a duração do fechamento automático da política de alertas expira. Para configurar a duração do fechamento automático, use o console do Google Cloud ou o API Cloud Monitoring. Por padrão, a duração do fechamento automático é de sete dias.
Condições previstas:
- Uma previsão é produzida e prevê que a série temporal não violará o limite na janela de previsão.
Nenhuma observação chega por 10 minutos, a condição esteja configurado para encerrar incidentes quando as observações pararem de chegar, e o estado do recurso subjacente é desconhecido ou não está desativado.
Nenhuma observação chega à duração do fechamento automático da política de alertas, e a condição não está configurada para fechar incidentes automaticamente quando as observações param de chegar.
Por exemplo, uma política de alertas gerou um incidente porque a latência da resposta HTTP foi maior que 2 segundos por 10 minutos consecutivos. Se a próxima medição da latência de resposta HTTP for menor ou igual a dois segundos, o incidente será fechado. Da mesma forma, se nenhum dado for recebido por sete dias, o incidente será fechado.
Para fechar um incidente, faça o seguinte:
- No painel Incidentes da página Alertas, clique em Ver todos os incidentes.
Na página Incidentes, encontre o incidente que você quer fechar e siga um destes procedimentos:
- Clique em more_vert Ver mais e selecione Fechar incidente.
- Abra a página Detalhes do incidente desse incidente e clique em Fechar incidente.
Unable to close incident with active conditions
,
o incidente não poderá ser encerrado porque os dados foram recebidos no
período de alerta mais recente.
Se você vir a mensagem Unable to close incident. Please try again in a few minutes.
, não foi possível encerrar o incidente devido a um erro interno.
Retenção e limites de dados
Para informações sobre limites e o período de retenção de incidentes, consulte Limites de alerta.
A seguir
- Para criar e gerenciar políticas de alertas com a API Cloud Monitoring ou Na linha de comando, consulte Gerenciar políticas de alertas por API.
- Para um tratamento conceitual detalhado de políticas de alertas, consulte Comportamento de políticas de alertas baseadas em métricas.