基于指标的提醒的突发事件

突发事件是提醒政策的触发记录。当满足提醒政策的条件时,Cloud Monitoring 会打开突发事件。

本页面介绍如何查看、调查和管理基于指标的提醒政策的突发事件。

查找突发事件

如需查看突发事件列表,请执行以下操作:

  1. 在 Cloud Console 工具栏中,点击 导航菜单,然后选择 Monitoring

    转到 Monitoring

  2. 在 Monitoring 导航窗格中,点击 提醒

    • 摘要窗格列出了未结突发事件的数量。
    • 突发事件窗格会显示最近的突发事件。如需在表格中隐藏已关闭的突发事件,请点击隐藏已关闭的突发事件

查找较早的突发事件

提醒页面上的突发事件窗格显示最近未结的突发事件。要查找较早的突发事件,请执行以下任一操作:

  • 如需分页浏览突发事件表中的条目,请点击 较新 较早

  • 要导航到突发事件页面,请点击查看所有突发事件。在突发事件页面中,您可以执行以下操作:

    • 隐藏已关闭的突发事件:如需仅列出表中的未结突发事件,请点击隐藏已关闭的突发事件
    • 过滤突发事件:如需了解如何添加过滤条件,请参阅过滤突发事件
    • 确认、抑制或结束突发事件: 如需访问这些选项,请在突发事件行中点击  更多选项,然后从菜单中选择所需的选项。如需了解详情,请参阅管理突发事件

过滤突发事件

当您在过滤栏中输入值时,只有与过滤条件匹配的突发事件会列在突发事件表中。如果您添加了多个过滤条件,则只有在满足所有过滤条件的情况下,系统才会显示突发事件。

如需添加突发事件表的过滤条件,请执行以下操作:

  1. 突发事件页面上,点击  过滤表,然后选择过滤条件属性。过滤属性包括以下所有项:

    • 突发事件的状态
    • 提醒政策的名称
    • 突发事件打开或关闭的时间
    • 指标类型
    • 资源类型
  2. 从二级菜单中选择一个值,或在过滤栏中输入一个值。

    例如,如果您选择指标类型并输入 usage_time,则只能在二级菜单中看到以下选项:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

调查突发事件

如需查看突发事件的详情,您必须至少拥有 Identity and Access Management 的 roles/monitoring.viewer 角色。如需了解详情,请参阅由于权限错误而无法查看突发事件详情

找到要调查的突发事件后,请转到该事件的突发事件详情页面。要查看详细信息,请在提醒页面或突发事件页面点击突发事件表中的突发事件摘要。

或者,如果您收到包含突发事件链接的通知,请点击该链接以查看突发事件详情。

以下屏幕截图显示了突发事件的详情页面:

详细信息页面提供有关突发事件的摘要信息和调查工具。

突发事件详情页面提供以下信息:

  • 状态信息,包括:

    • 名称:触发此突发事件的提醒政策的名称。
    • 状态:突发事件的状态:未结、已确认或已关闭。
    • 持续时间:突发事件打开的时长。
  • 导致突发事件的提醒政策的相关信息:

    • 条件:提醒政策中导致突发事件的条件。
    • 消息:基于提醒政策中的条件配置的简要原因说明。此窗格会始终填充内容。
    • 文档:创建提醒政策时提供的通知的(可选)文档。此信息可能包括对提醒政策监控的内容的说明,以及关于应对措施的提示。如果您在创建提醒政策时跳过了此字段,则此窗格中的文本将是“No documents is configuration.”
  • 标签:触发提醒政策的时间序列的受监控资源和指标的标签和值。此信息可帮助您识别导致突发事件的特定受监控资源。

突发事件详情页面还提供用于调查突发事件的工具:

  • 突发事件时间轴:显示突发事件的两种可视化展示:

    • 位于时间轴上方的红色条表示突发事件;红色条的长度和位置反映了突发事件的持续时间。
    • 图表显示导致突发事件的提醒政策使用的时间序列数据和阈值。当某些时间序列符合提醒政策的条件时,系统会打开突发事件。

    时间轴通过两个带有标签的点表示突发事件的持续时间。这些点在时间轴上的位置决定了突发事件时间轴下方的图表显示的数据的范围。默认情况下,一个点位于突发事件的打开时间,另一个点位于突发事件的关闭时间,如果突发事件仍处于打开状态,则另一个点位于当前时间。

    您可以修改突发事件时间轴和图表的时间范围:

    • 如需更改图表上显示的时间范围,请沿时间轴拖动任意一个点。通过这种方法,您可以重点关注特定的时间间隔,例如突发事件的开始或结束时间附近。

      通过拖动轴上的点可以更改图表,进而在时间范围菜单中设置自定义值以及停用该菜单。要启用时间范围菜单,请点击重置

    • 要更改时间轴上显示的时间范围,请从时间范围菜单中选择一个范围。

  • 其他问题排查工具的链接。项目和提醒政策的配置以及突发事件的持续时间决定了可用的链接。
    • 如需查看提醒政策的详情页面,请点击查看政策
    • 要修改提醒政策的定义,请点击修改政策
    • 如需转到资源的性能信息中心,请点击查看资源详细信息
    • 如需在日志浏览器中查看相关日志条目,请点击查看日志。如需了解详情,请参阅使用日志浏览器
    • 如需调查图表中的数据,请点击在 Metrics Explorer 中查看
  • 注释:提供有关突发事件调查的发现、结果、建议或其他评论的日志。
    • 要添加注释,请在字段中输入文本,然后点击添加注释
    • 要舍弃评论,请点击取消

您还可以在突发事件详情页面中确认、抑制或结束突发事件。如需了解详情,请参阅管理突发事件

管理突发事件

突发事件具有以下状态之一:

  • 打开:该政策的条件集已得到满足,或者没有数据表明不再满足该条件。如果政策包含多个条件,则突发事件是否处于未结状态取决于这些条件的组合方式。如需了解详情,请参阅组合条件

  • 已确认:该突发事件为未结状态,并被标记为已确认。通常,此状态表示正在调查突发事件。

  • 已结束: 系统观察到条件不再满足,您已结束突发事件,或者在 7 天内没有观察结果表明条件仍得到满足。

配置提醒政策时,请确保稳定状态在一切正常时提供信号。只有这样才能确保确定无错误状态或关闭突发事件(如果突发事件处于打开状态)。如果没有信号指明错误条件已经停止,突发事件一旦打开,便会在政策触发 7 天内保持打开状态。

例如,如果您创建了一项政策以在错误数量超过 0 时通知您,请确保该政策在没有任何错误时生成的错误计数为 0。如果政策在无错误状态下返回 null 或为空,则没有信号指明错误停止的时间。在某些情况下,Monitoring Query Language (MQL) 支持指定在没有测量值可用时的默认值。如需查看示例,请参阅使用比率

如需管理突发事件,您的角色必须包含 monitoring.alertPolicy.createmonitoring.alertPolicy.update 权限。Monitoring 编辑者角色 roles/monitoring.editor 中包含这些权限。如需详细了解角色和权限,请参阅访问权限控制:预定义角色

确认突发事件

我们建议您在开始调查突发事件的原因时将突发事件标记为已确认。

如需将突发事件标记为已确认,请执行以下操作:

  • 提醒信息中心的突发事件窗格中,点击查看所有突发事件
  • 突发事件页面上,找到要确认的突发事件,然后执行以下操作之一:

    • 点击  更多选项,然后选择确认
    • 打开突发事件的详细信息页面,然后点击确认突发事件

抑制突发事件

如需关闭与提醒政策的条件关联的所有未结突发事件,请抑制与该条件关联的一个突发事件。例如,假设提醒政策有一个监控 10 个时序的条件。如果任何时序超过阈值 1,则满足该条件。如果 5 个时序超过该阈值,则会创建 5 个突发事件。如果您抑制其中任何一个事件,则所有 5 个事件都会被关闭。

抑制突发事件并不会调和突发事件的基本原因。也就是说,如果在下一个提醒周期内满足该提醒政策的条件,则会生成该条件的突发事件。

如果提醒政策包含多个条件,则抑制一个条件的突发事件不会关闭对其他条件生成的任何突发事件。

如需抑制突发事件,请执行以下操作:

  • 提醒信息中心的突发事件窗格中,点击查看所有突发事件
  • 突发事件页面,找到要抑制的突发事件,点击 更多选项,然后选择抑制关联的条件

结束突发事件

您可以让 Monitoring 为您结束突发事件,或者有时您可以结束突发事件:

  • 当发生以下任一情况时,Monitoring 会自动结束突发事件:

    • 观察结果表明不再满足条件。

    • 对于指标阈值条件,在提醒政策的自动关闭时长内没有收到任何观察结果时。如需配置自动关闭时长,您可以使用 Cloud Console 或 Cloud Monitoring API。默认情况下,自动关闭时长为 7 天。

    • 对于指标缺失条件,当自动关闭时长到期后 24 小时内没有收到任何数据时,Monitoring 将关闭突发事件。如需配置自动关闭时长,您可以使用 Cloud Console 或 Cloud Monitoring API。默认情况下,自动关闭时长为 7 天。

    例如,由于 HTTP 响应延迟时间超过 2 秒且持续 10 分钟,提醒政策生成了突发事件。如果 HTTP 响应延迟时间的下一次测量结果少于或等于 2 秒,则突发事件结束。同样,如果 7 天内未收到任何数据,则突发事件结束。

  • 在不再接收到观察结果后,您可以结束突发事件。

    如果在您结束突发事件后接收到数据表明条件得到满足,则会再次创建突发事件。

    结束突发事件不会结束同一提醒政策下的其他任何未结突发事件。此行为与抑制突发事件不同,对于同一条件,它会结束所有未结突发事件。

如需结束突发事件,请执行以下操作:

  1. 提醒信息中心的突发事件窗格中,点击查看所有突发事件
  2. 突发事件页面上,找到要结束的突发事件,然后执行以下操作之一:

    • 点击 更多选项,然后选择关闭此突发事件 (Close this incident)。
    • 打开突发事件的详情页面,然后点击结束突发事件

如果您看到消息 Unable to close incident with active conditions,则无法关闭突发事件,因为系统在最近提醒期内已收到数据。

如果您看到消息 Unable to close incident. Please try again in a few minutes.,则表示由于内部错误,突发事件无法关闭。

后续步骤