Tempo estimado até à conclusão: 5 dias
Proprietário do componente operacional: OLT
Perfil de competências: engenheiro de implementação
A partir da versão 1.14, a conclusão da implementação é validada com base nos painéis de controlo da pilha de observabilidade e monitorização.
Valide o painel de controlo de incidentes do ServiceNow
- Verifique se existem incidentes novos ou não resolvidos relacionados com a implementação.
Valide o painel de controlo do Grafana AlertManager
- Procure alertas que estejam a ser acionados ativamente.
Triagem de novos incidentes e alertas Para qualquer novo incidente do ServiceNow ou alerta do Grafana, siga estes passos:
- Compare o problema com o documento de problemas conhecidos.
- Se o problema não estiver listado como um problema conhecido, encaminhe-o para a equipa de engenharia para avaliar o caminho a seguir. A resolução pode exigir que conclua o seguinte:
- Resolva o problema subjacente.
- Documente o alerta como um novo problema conhecido, por exemplo, se for um falso positivo.
37.1. Validar o estado do sistema
Após a implementação, o indicador principal do estado do sistema é a ausência de incidentes e alertas novos e inesperados no painel de controlo de incidentes do ServiceNow (SNOW) e no painel de controlo do Grafana AlertManager.
37.1.1. Painel de controlo de incidentes do ServiceNow
O painel de controlo do ServiceNow oferece uma vista geral dos problemas significativos que foram registados automaticamente pelo sistema. Após uma implementação, este painel de controlo não deve apresentar incidentes críticos novos.
O seu objetivo é confirmar que não foram acionados incidentes novos e não documentados. Qualquer incidente que apareça tem de estar já listado na secção de problemas conhecidos.
37.1.2. Painel de controlo do AlertManager do Grafana
O painel de controlo do AlertManager oferece uma vista mais imediata e em tempo real do estado do sistema, mostrando alertas ativados. Normalmente, um problema aparece aqui antes de ser criado um incidente do ServiceNow.
Um sistema em bom estado não apresenta novos alertas de disparo. Todos os alertas ativos têm de ser validados na página de problemas conhecidos para confirmar se se trata de um comportamento esperado.
37.1.3. Interpretar os resultados
Quando ambos os painéis de controlo não apresentam problemas novos nem não documentados, isto serve como uma forte confirmação de que a implementação foi bem-sucedida e o sistema está estável.
Se descobrir incidentes ou alertas que não constam da página de problemas conhecidos, avance com os passos de triagem e encaminhamento descritos na lista de verificação mencionada anteriormente. Os novos falsos positivos têm de ser comunicados à equipa de engenharia para que possam ser resolvidos e documentados adequadamente.
37.2. Exemplo de fluxo de trabalho de triagem
Quando um novo alerta requer investigação, o processo geral de triagem no Grafana AlertManager envolve os seguintes passos:
Agrupe por prioridade: primeiro, agrupe os alertas para se concentrar nos problemas mais críticos.

Atribua um pedido: para garantir a propriedade e a monitorização, atribua um pedido ao alerta.

Reveja as regras de alerta: investigue a regra de alerta específica que foi acionada para compreender as respetivas condições e finalidade.

Verifique o estado de acionamento: examine os detalhes e o estado do alerta de acionamento no painel de controlo.

Valide o alerta: por último, confirme que o alerta está a ser acionado ativamente e representa um problema válido antes de avançar com o processo de encaminhamento.
