37. 部署核对清单

预计完成时间:5 天

可操作组件的所有者:OLT

技能配置文件:部署工程师

从 1.14 版开始,系统会根据可观测性和监控堆栈信息中心验证部署是否完成。


  1. 验证 ServiceNow 事件信息中心

    • 检查是否存在与部署相关的新突发事件或未解决的突发事件。
  2. 验证 Grafana AlertManager 信息中心

    • 查找任何正在触发的提醒。
  3. 对新事件和提醒进行初步评估 对于任何新的 ServiceNow 事件或触发的 Grafana 提醒,请按以下步骤操作:

    1. 将问题与“已知问题”文档进行交叉对比。
    2. 如果该问题未列为已知问题,请上报给工程团队以评估后续处理方案。此问题可能需要您完成以下操作才能解决:
      • 解决根本问题。
      • 将相应提醒记录为新的已知问题,例如,如果该提醒是误报。

37.1. 验证系统运行状况

部署完成后,系统健康状况的主要指标是 ServiceNow (SNOW) 事件信息中心和 Grafana AlertManager 信息中心上没有新的意外事件和提醒。


37.1.1. ServiceNow 突发事件信息中心

ServiceNow 信息中心可提供系统自动创建工单的重大问题的高级视图。部署完成后,此信息中心不应显示任何新的严重突发事件。

您的目标是确认没有触发任何新的未记录的突发事件。显示的任何突发事件都必须已列在“已知问题”部分中。


37.1.2. Grafana AlertManager 信息中心

AlertManager 信息中心会显示正在触发的提醒,从而提供更即时的系统状态实时视图。在创建 ServiceNow 突发事件之前,问题通常会显示在此处。

正常运行的系统不会显示新的触发提醒。必须对照“已知问题”页面验证所有有效提醒,以确认它们是否属于预期行为。


37.1.3. 解读结果

如果这两个信息中心均未显示新的未记录问题,则可以有力地证明部署已成功完成,并且系统运行稳定。

如果您发现任何未在已知问题页面中列出的突发事件或提醒,请按照前面提到的清单中所述的初步诊断和上报步骤进行操作。必须向工程团队报告新的假正例,以便他们能够妥善处理并记录这些假正例。


37.2. 分诊工作流示例

当新提醒需要调查时,Grafana AlertManager 中的一般分诊流程包括以下步骤:

  1. 按优先级分组:首先,对提醒进行分组,以便重点关注最严重的问题。 Group_by_prio

  2. 分配工单:为确保所有权和跟踪,请为相应提醒分配工单。 Ticket_assign

  3. 查看提醒规则:调查触发的特定提醒规则,了解其条件和用途。 Review_alerting_rules

  4. 检查触发状态:在信息中心内检查触发警报的详细信息和状态。 Check_firing_state

  5. 验证提醒:最后,在继续升级流程之前,请确认提醒是否正在触发,以及是否代表有效的问题。 Verify_Alert