基于指标的提醒政策的突发事件

突发事件是提醒政策的条件或 条件。通常,在满足条件时 Cloud Monitoring 会创建一个突发事件并发送通知。不过, 延后或停用政策时, 过多的未结突发事件,或者当底层资源 已经被发现是已停用的此外,如果提醒政策包含多个 提醒政策将指定是否满足 足以导致系统创建突发事件

本文档介绍如何查看、调查和管理基于指标的提醒政策的突发事件。

准备工作

确保您拥有所需的权限:

如需详细了解 Cloud Monitoring 角色, 请参阅使用 Identity and Access Management 控制访问权限

查找突发事件

如需查看突发事件列表,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到 提醒页面:

    进入提醒

    如果您使用搜索栏查找此页面,请选择子标题为监控的结果。

    • 摘要窗格列出了未结突发事件的数量。
    • 突发事件窗格会显示最近打开的突发事件。如需在表格中列出最近的突发事件(包括已结突发事件),请点击显示已关闭的突发事件
  2. 可选:如需查看特定突发事件的详细信息,请选择 事件。系统会打开突发事件详情页面。相关信息 请参阅调查突发事件部分 部分。

查找较早的突发事件

提醒页面上的突发事件窗格显示最近未结的突发事件。要查找较早的突发事件,请执行以下任一操作:

  • 如需分页浏览突发事件表中的条目,请点击 较新 较早

  • 要导航到突发事件页面,请点击查看所有突发事件。在突发事件页面中,您可以执行以下操作:

    • 显示已关闭的突发事件:如需列出表格中的所有突发事件,请执行以下操作: 点击显示已关闭的突发事件
    • 过滤突发事件:如需了解如何添加过滤条件,请参阅 过滤突发事件
    • 确认或结束突发事件,或延后其提醒政策。 如需访问这些选项,请按以下步骤操作: 点击相应突发事件行中的  更多选项, 然后从菜单中进行选择如需更多信息 请参阅管理突发事件

过滤事件

当您在过滤栏中输入值时,只有与过滤条件匹配的突发事件会列在突发事件表中。如果您添加了多个过滤条件,则只有在满足所有过滤条件的情况下,系统才会显示突发事件。

如需添加突发事件表的过滤条件,请执行以下操作:

  1. 突发事件页面上,点击  过滤表,然后选择过滤条件属性。过滤条件属性包括以下所有内容:

    • 突发事件的状态
    • 提醒政策的名称
    • 突发事件打开或关闭的时间
    • 指标类型
    • 资源类型
  2. 从二级菜单中选择一个值,或在过滤栏中输入一个值。

    例如,如果您选择指标类型并输入 usage_time,则只能在二级菜单中看到以下选项:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

调查突发事件

找到要调查的突发事件后,请转到该事件的突发事件详情页面。如需查看详细信息,请按以下步骤操作: 在 提醒页面或突发事件页面。

或者,如果您收到了包含突发事件链接的通知,则可以使用该链接查看突发事件详情。

突发事件详情页面提供以下信息:

  • 状态信息,包括:

    • 名称:触发此突发事件的提醒政策的名称。
    • 状态:突发事件的状态:未结、已确认或已关闭。
    • 严重程度:事件的严重程度: <ph type="x-smartling-placeholder">
        </ph>
      • 无严重级别
      • 严重
      • 错误
      • 警告
    • 持续时间:突发事件持续的时长。
  • 导致突发事件的提醒政策的相关信息:

    • 条件窗格:标识导致突发事件的提醒政策中的条件。

    • 消息窗格:基于提醒政策中的条件配置的简要原因说明。此窗格会始终填充内容。

    • 文档窗格:显示您在创建提醒政策时提供的通知的文档模板。此信息可能包括对提醒政策监控内容的说明,以及关于应对措施的提示。

      如果您在创建提醒政策时跳过了此字段,则此窗格会报告“未配置任何文档”。

  • 标签:报告以下内容:
    • 受监控的资源和指标的标签和值 触发突发事件的时序。 此信息可帮助您识别导致突发事件的特定受监控资源。

      在文档中使用变量作为指标标签时 在以下情况下,监控会忽略通知中的标签: 标签值不以数字、字母或 正斜线 (/)、 或等号 (=)。

    • 您在提醒政策中定义的任何用户指定的标签和值。您可以使用这些标签整理和识别 提醒政策系统会列出与政策关联的标签 政策标签部分所定义的标签,而 指标标签部分列出了条件。元数据 仅当存在符合您要求的过滤条件或分组时, 取决于标签。 如需了解详情,请参阅 使用标签为提醒添加注释

突发事件详情页面还提供用于调查突发事件的工具:

  • 事件时间轴:显示事件时间轴的 突发事件:

    • 在时间轴上,红色条代表事件发生的时间; 长度 和条形的位置反映了相应事件的持续时间
    • 图表显示导致突发事件的提醒政策使用的时间序列数据和阈值。当某些时间序列符合提醒政策的条件时,系统会打开突发事件。

    时间轴通过两个带有标签的点表示突发事件的持续时间。这些点在时间轴上的位置决定了突发事件时间轴下方的图表显示的数据的范围。默认情况下,一个点位于突发事件的打开时间,另一个点位于突发事件的关闭时间,如果突发事件仍处于打开状态,则另一个点位于当前时间。

    您可以在突发事件时间轴上修改时间范围, 图表:

    • 如需更改图表上显示的时间范围,请沿时间轴拖动任意一个点。通过这种方法,你可以集中精力 在特定时间段(例如,视频开头或结尾前后) 事件发生的情况

      通过拖动轴上的点可以更改图表,进而在时间范围菜单中设置自定义值以及停用该菜单。要启用时间范围菜单,请点击重置

    • 要更改时间轴上显示的时间范围,请从时间范围菜单中选择一个范围。
  • 其他问题排查工具的链接。项目和提醒政策的配置以及突发事件的持续时间决定了可用的链接。
    • 如需查看提醒政策的详情页面,请点击查看政策
    • 要修改提醒政策的定义,请点击修改政策
    • 如需转到资源的性能信息中心,请点击查看资源详细信息
    • 如需在日志浏览器中查看相关日志条目,请点击查看日志。如需了解详情,请参阅 使用 日志浏览器
    • 如需调查图表中的数据,请点击在 Metrics Explorer 中查看
  • 注释:提供有关突发事件调查的发现、结果、建议或其他评论的日志。
    • 要添加注释,请在字段中输入文本,然后点击添加注释
    • 要舍弃评论,请点击取消

管理突发事件

突发事件具有以下状态之一:

  • 开盘: 满足提醒政策的一组条件,或没有数据 以表明不再满足相应条件。 如果提醒政策包含多个条件, 事件就会打开 如何组合这些条件。如需了解详情,请参阅 包含多个条件的政策

  • 已确认:该突发事件为未结状态,并被标记为已确认。通常,此状态表示正在调查突发事件。

  • 已结束: 系统观察到条件不再满足,您已结束突发事件,或者在 7 天内没有观察结果表明条件仍得到满足。

配置提醒政策时,请确保稳定状态在一切正常时提供信号。只有这样才能确保确定无错误状态或关闭突发事件(如果突发事件处于打开状态)。如果没有信号来指示 条件停止,那么创建突发事件后,该状态会保持未解决状态 提醒政策触发 7 天后。

例如,如果您创建了一项提醒政策, 大于 0,请确保它会产生 当没有任何错误时,计数为 0。 如果提醒政策返回 null 或 在无错误状态下为空,则没有信号可指示 已停止。在某些情况下,Monitoring Query Language (MQL) 支持指定在没有测量值可用时的默认值。如需查看示例,请参阅使用比率

确认突发事件

我们建议您在开始调查突发事件的原因时将突发事件标记为已确认。

如需将突发事件标记为已确认,请执行以下操作:

  • Alerting 页面的 Incidents 窗格中, 点击查看所有突发事件
  • 突发事件页面上,找到要确认的突发事件,然后执行以下操作之一:

    • 点击  更多选项,然后选择确认
    • 打开突发事件的详细信息页面,然后点击确认突发事件

如果您的提醒政策配置为 重复发送通知,然后确认 事件不会阻止通知 如需停止这些通知,请执行以下任一操作:

  • 为提醒政策创建延后。
  • 停用提醒政策。

延后提醒政策

为了防止 Monitoring 创建突发事件和将 特定时间段内的通知、暂停相关提醒政策。 延后提醒政策时,Monitoring 还会关闭所有提醒 与提醒政策相关的事件。

如需为您正在查看的事件创建延后,请执行以下操作:

  1. 突发事件详情页面上,点击延后

  2. 选择延后时长。选择延后时长后 立即开始

查看突发事件的详情页面时,您可以为相应事件创建延后 相关提醒政策,请点击延后,然后选择 时长。延后会立即开始。您还可以 从突发事件页面中找到提醒政策, 点击您想要延后的事件  更多选项,然后选择延后。 您可以在服务中断期间暂停提醒政策,以防进一步 通知。

关闭突发事件

您可以让 Monitoring 为您关闭突发事件,也可以 在观察停止后关闭事件。 关闭突发事件后,收到指示情况的数据 系统就会创建新的突发事件关闭突发事件后 操作不会关闭 条件相同如果您延后提醒政策,则未结突发事件 在延后开始时关闭。

当发生以下任一情况时,Monitoring 会自动结束突发事件:

  • 指标阈值条件:

    • 出现观察结果,表明未违反阈值。
    • 未检测到任何观察结果,条件配置为关闭突发事件 以及底层资源的状态, 未知或未被停用。

    • 在提醒的自动关闭时长内未接收到任何观察数据 政策,并且条件未配置为自动关闭突发事件 停止观察。配置自动关闭 可以使用 Google Cloud 控制台或 Cloud Monitoring API。默认情况下,自动关闭时长为 7 天。自动关闭时长下限为 30 分钟。

  • 指标缺失条件:

    • 出现观察结果。
    • 之后的 24 小时内没有观察结果 提醒政策的自动关闭时长到期。要配置 您可以使用 Google Cloud 控制台或 Cloud Monitoring API。默认情况下,自动关闭时长为 7 天。
  • 预测条件:

    • 系统生成了一项预测,预测出时序不会违反 阈值。
    • 在 10 分钟内未发生任何观察结果, 配置为在观测结果停止时关闭突发事件,以及 底层资源的状态未知或未停用。

    • 在提醒的自动关闭时长内未接收到任何观察数据 政策,并且条件未配置为自动关闭突发事件 停止观察。

例如,由于 HTTP 响应延迟时间超过 2 秒且持续 10 分钟,提醒政策生成了突发事件。如果 HTTP 响应延迟时间的下一次测量结果少于或等于 2 秒,则突发事件结束。同样,如果 7 天内未收到任何数据,则突发事件结束。

如需结束突发事件,请执行以下操作:

  1. Alerting 页面的 Incidents 窗格中, 点击查看所有突发事件
  2. 突发事件页面上,找到要结束的突发事件,然后执行以下操作之一:

    • 点击  查看更多,然后选择 关闭突发事件
    • 打开突发事件的详情页面,然后点击结束突发事件

如果您看到消息 Unable to close incident with active conditions,则无法关闭突发事件,因为系统在最近提醒期内已收到数据。

如果您看到消息 Unable to close incident. Please try again in a few minutes.,则表示由于内部错误,突发事件无法关闭。

数据保留和限制

如需了解限制和突发事件保留期限, 请参阅提醒限制

后续步骤

* 有关提醒政策的概念性论述,请参阅 基于指标的提醒政策的行为