突发事件

突发事件是提醒政策的触发记录。当满足提醒政策的条件时,Cloud Monitoring 会打开突发事件。

本页面介绍如何查看、调查和管理突发事件。

查找突发事件

如需查找突发事件列表,请执行以下操作:

  1. 在 Cloud Console 工具栏中,点击 导航菜单,然后选择 Monitoring

    转至 Monitoring

  2. 在 Monitoring 导航窗格中,点击 提醒

    在提醒信息中心页面上,摘要窗格列出了未结突发事件的数量,突发事件表格显示最近的突发事件。默认情况下,系统不会列出已关闭的突发事件。如需在表格中包括已结突发事件,请点击显示已结突发事件

查找较早的突发事件

提醒页面上的突发事件表格仅显示最近的突发事件。要查找较早的突发事件,请执行以下任一操作:

  • 点击  较新 较早,以浏览突发事件表中的条目。

  • 点击查看所有突发事件,导航到突发事件页面。

    默认情况下,此表格会显示所有未结突发事件。如需在表格中包括已结突发事件,请点击显示已结突发事件

    如要控制列出哪些突发事件,请添加过滤条件。如需了解详情,请参阅过滤突发事件

    如需管理此表格中的突发事件或提醒政策,请点击突发事件所在行中的 更多选项,然后从选项菜单中进行选择。如需详细了解如何确认或抑制突发事件,请参阅管理突发事件

过滤突发事件

要过滤突发事件表,请执行以下操作:

  1. 突发事件页面上,点击 过滤表,然后选择过滤属性:您可以根据以下属性进行过滤:

    • 突发事件的状态
    • 提醒政策的名称
    • 突发事件打开或关闭的时间
    • 指标类型
    • 资源类型
  2. 从二级菜单中选择一个值,或在过滤栏中输入一个值。当您在过滤栏中输入值时,选项列表只会显示包含您输入的值的选项。

    例如,如果您选择指标类型并输入 usage_time,则只能在二级菜单中看到以下选项:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time

如果您添加了多个过滤条件,则只有在满足所有过滤条件的情况下,系统才会显示突发事件。

调查突发事件

找到要调查的突发事件后,请转到该事件的突发事件详情页面。要查看详细信息,请在提醒页面或突发事件页面点击突发事件表中的突发事件摘要。

以下屏幕截图显示了突发事件的详情页面:

详细信息页面提供有关突发事件的摘要信息和调查工具。

突发事件详情页面提供以下信息:

  • 状态信息,包括:

    • 名称:触发此突发事件的提醒政策的名称。
    • 状态:突发事件的状态:未结、已确认或已关闭。
    • 持续时间:突发事件打开的时长。
  • 导致突发事件的提醒政策的相关信息:

    • 条件:提醒政策中导致突发事件的条件。
    • 消息:基于提醒政策中的条件配置的简要原因说明。此窗格会始终填充内容。
    • 文档:创建提醒政策时提供的通知的(可选)文档。此信息可能包括对提醒政策监控的内容的说明,以及关于应对措施的提示。由于文档是可选项,因此此窗格可能为空。
  • 标签:触发提醒政策的时间序列的受监控资源和指标的标签和值。此信息可帮助您识别导致突发事件的特定受监控资源。

突发事件详情页面还提供用于调查突发事件的工具:

  • 突发事件时间轴:显示突发事件的两种可视化展示:

    • 位于时间轴上方的红色条表示突发事件;红色条的长度和位置反映了突发事件的持续时间。
    • 图表显示导致突发事件的提醒政策使用的时间序列数据和阈值。当某些时间序列符合提醒政策的条件时,系统会打开突发事件。

    时间轴通过两个带有标签的点表示突发事件的持续时间。这些点在时间轴上的位置决定了突发事件时间轴下方的图表显示的数据的范围。默认情况下,一个点位于突发事件的打开时间,另一个点位于突发事件的关闭时间,如果突发事件仍处于打开状态,则另一个点位于当前时间。

    您可以修改突发事件时间轴和图表的时间范围:

    • 如需更改图表上显示的时间范围,请沿时间轴拖动任意一个点。通过这种方法,您可以重点关注特定的时间间隔,例如突发事件的开始或结束时间附近。

      通过拖动轴上的点可以更改图表,进而在时间范围菜单中设置自定义值以及停用该菜单。要启用时间范围菜单,请点击重置

    • 要更改时间轴上显示的时间范围,请从时间范围菜单中选择一个范围。

  • 其他问题排查工具的链接。项目和提醒政策的配置以及突发事件的持续时间决定了可用的链接。

    • 如需查看提醒政策的详情页面,请点击查看政策
    • 要修改提醒政策的定义,请点击修改政策
    • 如需转到资源的性能信息中心,请点击查看资源详细信息
    • 如需在日志浏览器中查看相关日志条目,请点击查看日志。如需了解详情,请参阅使用日志浏览器
    • 如需调查图表中的数据,请点击在 Metrics Explorer 中查看
  • 注释:提供有关突发事件调查的发现、结果、建议或其他评论的日志。

    • 要添加注释,请在字段中输入文本,然后点击添加注释
    • 要舍弃评论,请点击取消

您还可以从突发事件详情页面确认或抑制突发事件。如需了解详情,请参阅管理突发事件

管理突发事件

突发事件处于以下三种状态之一:

  • 打开:该政策的条件集已得到满足,或者没有数据表明不再满足该条件。如果政策包含多个条件,则突发事件是否处于未结状态取决于这些条件的组合方式。如需了解详情,请参阅组合条件

  • 已确认:该突发事件为未结状态,并被标记为已确认。通常,此状态表示正在调查突发事件。

  • 已结束:系统观察到条件不再满足,或者在 7 天内没有观察结果表明条件仍得到满足。

配置提醒政策时,请确保稳定状态在一切正常时提供信号。只有这样才能确保确定无错误状态或关闭突发事件(如果突发事件处于打开状态)。如果没有信号指明错误条件已经停止,突发事件一旦打开,便会在政策触发 7 天内保持打开状态。

例如,如果您创建了一项政策以在错误数量超过 0 时通知您,请确保该政策在没有任何错误时生成的错误计数为 0。如果政策在无错误状态下返回 null 或为空,则没有信号指明错误停止的时间。在某些情况下,Monitoring Query Language (MQL) 支持指定在没有测量值可用时的默认值。如需查看示例,请参阅使用比率

确认突发事件

如需将突发事件标记为已确认,请执行以下操作:

  • 提醒信息中心的突发事件窗格中,点击查看所有突发事件。此操作会打开突发事件窗口。
  • 如需确认突发事件,请执行以下任一操作:

    • 针对要确认的突发事件,选择 更多选项,然后选择确认
    • 打开要确认的突发事件的详情页面,然后点击确认突发事件

您必须具有 Monitoring Editor 角色 roles/monitoring.editor,才能确认意外事件;如需了解详情,请参阅访问控制:预定义角色

抑制条件

如果抑制某个条件,则使用该条件的所有未结突发事件都会被抑制,并且在不再满足该条件时您不会收到提醒通知。抑制条件会从活动的突发事件显示中移除突发事件。调查突发事件时,您应确认该事件,而不是抑制它。

抑制突发事件并不会调和突发事件的基本原因。也就是说,如果在下一个提醒周期内继续满足生成突发事件的条件,则会重新生成突发事件。

如需抑制条件,请执行以下操作:

  • 提醒信息中心的突发事件窗格中,点击查看所有突发事件
  • 突发事件页面上,找到您要确认的突发事件,选择 更多选项,然后选择抑制相关条件

结束突发事件

突发事件会自动关闭;您不能关闭突发事件。当系统观察到条件不再满足或 7 天内没有观察结果表明条件仍得到满足时,突发事件便会结束。

例如,假设您的提醒政策配置为在 HTTP 响应延迟时间超过 2 秒且连续 10 分钟时生成突发事件,并且创建了突发事件。如果 HTTP 响应延迟时间的下一次测量结果等于或少于 2 秒,则突发事件结束。同样,如果 7 天内未收到任何数据,则突发事件结束。

后续步骤