预计完成时间:5 天
可操作组件的所有者:OLT
技能配置文件:部署工程师
从 1.14 版开始,系统会根据可观测性和监控堆栈信息中心验证部署是否完成。
验证 ServiceNow 事件信息中心
- 检查是否存在与部署相关的新突发事件或未解决的突发事件。
验证 Grafana AlertManager 信息中心
- 查找任何正在触发的提醒。
对新事件和提醒进行初步评估 对于任何新的 ServiceNow 事件或触发的 Grafana 提醒,请按以下步骤操作:
- 将问题与“已知问题”文档进行交叉对比。
- 如果该问题未列为已知问题,请上报给工程团队以评估后续处理方案。此问题可能需要您完成以下操作才能解决:
- 解决根本问题。
- 将相应提醒记录为新的已知问题,例如,如果该提醒是误报。
37.1. 验证系统运行状况
部署完成后,系统健康状况的主要指标是 ServiceNow (SNOW) 事件信息中心和 Grafana AlertManager 信息中心上没有新的意外事件和提醒。
37.1.1. ServiceNow 突发事件信息中心
ServiceNow 信息中心可提供系统自动创建工单的重大问题的高级视图。部署完成后,此信息中心不应显示任何新的严重突发事件。
您的目标是确认没有触发任何新的未记录的突发事件。显示的任何突发事件都必须已列在“已知问题”部分中。
37.1.2. Grafana AlertManager 信息中心
AlertManager 信息中心会显示正在触发的提醒,从而提供更即时的系统状态实时视图。在创建 ServiceNow 突发事件之前,问题通常会显示在此处。
正常运行的系统不会显示新的触发提醒。必须对照“已知问题”页面验证所有有效提醒,以确认它们是否属于预期行为。
37.1.3. 解读结果
如果这两个信息中心均未显示新的未记录问题,则可以有力地证明部署已成功完成,并且系统运行稳定。
如果您发现任何未在已知问题页面中列出的突发事件或提醒,请按照前面提到的清单中所述的初步诊断和上报步骤进行操作。必须向工程团队报告新的假正例,以便他们能够妥善处理并记录这些假正例。
37.2. 分诊工作流示例
当新提醒需要调查时,Grafana AlertManager 中的一般分诊流程包括以下步骤:
按优先级分组:首先,对提醒进行分组,以便重点关注最严重的问题。

分配工单:为确保所有权和跟踪,请为相应提醒分配工单。

查看提醒规则:调查触发的特定提醒规则,了解其条件和用途。

检查触发状态:在信息中心内检查触发警报的详细信息和状态。

验证提醒:最后,在继续升级流程之前,请确认提醒是否正在触发,以及是否代表有效的问题。
