基于指标的提醒政策的突发事件

突发事件是记录提醒政策的一条或多条条件何时满足的记录。通常,当满足条件时,Cloud Monitoring 会打开突发事件并发送通知。不过, 暂停或停用政策时, 此政策的未结突发事件过多,或者底层资源 已经被发现是已停用的此外,如果提醒政策包含多个 提醒政策将指定 足以导致系统创建突发事件 突发事件是记录提醒政策满足条件的时间。通常,在满足条件时,Cloud Monitoring 会创建突发事件并 在收到符合 您的提醒政策。不过,在以下情况下,系统不会创建突发事件:

  • 政策已延后或停用。
  • 通知的发送频率上限将超出 每 5 分钟 1 条通知 每个基于日志的提醒政策。
  • 通知的每日总数将超过每个基于日志的提醒政策每天 20 条通知的限制。

对于每个突发事件,Monitoring 都会创建突发事件详细信息 可让您管理事件以及报告事件信息的页面, 可帮助您排查故障。 例如,突发事件详情页面会显示突发事件时间轴以及显示所监控指标数据的图表。您还可以找到指向 以及相关的事件和日志条目

本文档介绍了如何查找突发事件。还介绍了如何使用突发事件详情页面管理基于指标的提醒政策的突发事件,这些政策用于评估 Cloud Monitoring 存储的时间序列数据。

准备工作

确保您拥有所需的权限:

如需获得使用 Google Cloud 控制台查看和管理突发事件所需的权限,请让管理员向您授予项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需详细了解 Cloud Monitoring 角色, 请参阅使用 Identity and Access Management 控制访问权限

查找突发事件

如需查看 Google Cloud 项目中的突发事件列表,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到 提醒页面:

    进入提醒

    如果您使用搜索栏查找此页面,请选择子标题为监控的结果。

    • 摘要窗格列出了未结突发事件的数量。
    • 突发事件窗格会显示最近打开的突发事件。如需在表格中列出最近的突发事件(包括已关闭的突发事件),请点击显示已关闭的突发事件
  2. 如需查看特定突发事件的详细信息,请选择 事件。

    系统随即会打开突发事件详情页面。如需详细了解 事件详情页面,请参阅 此页面的调查突发事件部分。

查找较早的突发事件

提醒页面上的突发事件窗格显示最近未结的突发事件。要查找较早的突发事件,请执行以下任一操作:

  • 如需分页浏览突发事件表中的条目,请点击 较新 较早

  • 要导航到突发事件页面,请点击查看所有突发事件。在突发事件页面中,您可以执行以下操作:

    • 显示已关闭的突发事件:如需在表格中列出所有突发事件,请点击显示已关闭的突发事件
    • 过滤突发事件:如需了解如何添加过滤条件,请参阅过滤突发事件
    • 确认或结束突发事件,或延后其提醒政策。 如需访问这些选项,请按以下步骤操作: 点击相应突发事件行中的  更多选项, 然后从菜单中进行选择如需了解详情,请参阅管理突发事件

过滤事件

当您在过滤栏中输入值时,只有与过滤条件匹配的突发事件会列在突发事件表中。如果您添加了多个过滤条件,则只有在满足所有过滤条件的情况下,系统才会显示突发事件。

如需添加突发事件表的过滤条件,请执行以下操作:

  1. 突发事件页面上,点击  过滤表,然后选择过滤条件属性。过滤条件属性包括以下所有内容:

    • 突发事件的状态
    • 提醒政策的名称
    • 突发事件打开或关闭的时间
    • 指标类型
    • 资源类型
  2. 从二级菜单中选择一个值,或在过滤栏中输入一个值。

    例如,如果您选择指标类型并输入 usage_time,则只能在二级菜单中看到以下选项:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

调查突发事件

突发事件详情页面包含有助于识别您身份的信息 事件的原因

探索指标数据

如需分析突发事件发生前后的指标状态, 请使用提醒指标图表。此图表显示了时间轴以及导致提醒政策条件满足的时间序列。

您可以调整时间轴的范围,以找出 指标数据:

  • 如需在仅显示导致满足条件的时序和显示条件评估的所有时序之间切换,请点击 Show all timeseries(显示所有时间序列)。

  • 要更改图表显示的时间范围,您可以使用 选择器,或在图表中突出显示时间范围, 指针。

您还可以通过在 Metrics Explorer。为此,请前往提醒指标 图表,然后点击 Explore Data(探索数据)。默认情况下,Metrics Explorer 会汇总和过滤指标数据,以便指标图表与提醒指标时间轴上显示的时间序列保持一致。

浏览日志条目

“突发事件详情”页面上的日志窗格会显示与指标的受监控资源的资源类型和标签匹配的日志条目。您可以分析这些日志条目,以查找可能有助于排查突发事件的其他信息。

  • 如需在日志浏览器中查看日志条目,请点击在日志浏览器中查看,然后选择一个范围限定项目。日志浏览器提供了其他工具,可用于分析日志条目数据, 例如相关日志条目的创建时间时间轴。
  • 如需在 Metrics Explorer 中查看和修改用于过滤日志条目的查询,请点击 探索数据

查看补充信息

标签部分会显示导致突发事件的时间序列的受监控资源和指标的标签和值,以及提醒政策中定义的用户标签。此信息可能有助于您识别导致突发事件的特定受监控资源。如需了解详情,请参阅使用标签为突发事件添加注释

文档部分显示您在创建提醒政策时提供的通知的文档模板。这些信息可能包括对提醒 并提供缓解措施建议。如需了解详情,请参阅使用用户定义的文档为通知添加注释

如果您没有为提醒政策配置文档, ,则 Documentation 窗格会显示“未配置任何文档”。

为帮助您发现应用中的根本问题,您可以探索与其他提醒政策条件相关的突发事件。

相关突发事件部分会显示与以下任一条件匹配的突发事件列表:

  • 当满足同一提醒政策的条件时,系统会创建突发事件。
  • 此事件与此事件中显示的事件具有同一标签 详细信息页面。

管理突发事件

突发事件具有以下状态之一:

  • 开盘: 满足提醒政策的一组条件,或没有数据 以表明不再满足相应条件。 如果提醒政策包含多个条件, 事件就会打开 如何组合这些条件。如需了解详情,请参阅 包含多个条件的政策

  • 已确认:该突发事件为未结状态,并被标记为已确认。通常,此状态表示正在调查突发事件。

  • 已结束: 系统观察到条件不再满足,您已结束突发事件,或者在 7 天内没有观察结果表明条件仍得到满足。

配置提醒政策时,请确保稳定状态在一切正常时提供信号。只有这样才能确保确定无错误状态或关闭突发事件(如果突发事件处于打开状态)。如果没有信号来指示 条件停止,那么创建突发事件后,该状态会保持未解决状态 提醒政策触发 7 天后。

例如,如果您创建了一项提醒政策, 大于 0,请确保它会产生 当没有任何错误时,计数为 0。 如果提醒政策在无错误状态下返回 null 或为空,则没有信号指明错误停止的时间。在某些情况下,Monitoring Query Language (MQL) 支持指定在没有测量值可用时的默认值。如需查看示例,请参阅使用比率

确认突发事件

我们建议您在开始调查突发事件的原因时将突发事件标记为已确认。

如需将突发事件标记为已确认,请执行以下操作:

  1. Alerting 页面的 Incidents 窗格中, 点击查看所有突发事件
  2. 突发事件页面上,找到要确认的突发事件,然后执行以下操作之一:

    • 点击  更多选项,然后选择确认
    • 打开突发事件的详细信息页面,然后点击确认突发事件

如果您的提醒政策配置为 重复发送通知,然后确认 也不会阻止通知 如需停止这些流程,请执行以下操作之一:

  • 为提醒政策创建延迟提醒。
  • 停用提醒政策。

延后提醒政策

如需阻止 Monitoring 在特定时间段内创建突发事件并发送通知,请暂停相关提醒政策。 延后提醒政策时,Monitoring 还会关闭所有提醒 与提醒政策相关的突发事件。

如需为您正在查看的突发事件创建提醒,请执行以下操作:

  1. 突发事件详情页面上,点击延后政策

  2. 选择延迟时长。选择延迟时长后,系统会立即开始延迟。

您还可以在突发事件页面上延迟提醒政策的提醒,具体方法是找到要延迟提醒的突发事件,点击  更多选项,然后选择延迟。您可以在服务中断期间暂停提醒政策,以防进一步 通知。

关闭突发事件

您可以让 Monitoring 为您关闭突发事件,也可以 在观察停止后关闭事件。 关闭突发事件后,收到指示情况的数据 系统就会创建新的突发事件结束突发事件不会结束同一条件下的其他任何未结突发事件。如果您延后提醒政策,则未结突发事件 在延后开始时关闭。

当发生以下任一情况时,Monitoring 会自动结束突发事件:

  • 指标阈值条件:

    • 出现观察结果,表明未违反阈值。
    • 没有收到任何观察结果,相应条件配置为在停止收到观察结果时关闭突发事件,并且底层资源的状态为未知或未停用。

    • 在提醒政策的自动关闭时长内没有收到观察结果,并且条件未配置为在停止收到观察结果时自动关闭突发事件。配置自动关闭 可以使用 Google Cloud 控制台或 Cloud Monitoring API。默认情况下,自动关闭时长为 7 天。自动关闭时长下限为 30 分钟。

  • 指标缺失条件:

    • 发生观察。
    • 之后的 24 小时内没有观察结果 提醒政策的自动关闭时长到期。要配置 您可以使用 Google Cloud 控制台或 Cloud Monitoring API。默认情况下,自动关闭时长为 7 天。
  • 预测条件:

    • 系统会生成预测结果,预测结果会预测时间序列在预测期内不会超出阈值。
    • 10 分钟内没有收到任何观察结果,相应条件配置为在停止收到观察结果时结束突发事件,并且底层资源的状态未知或未停用。

    • 在提醒的自动关闭时长内未接收到任何观察数据 政策,并且条件未配置为自动关闭突发事件 停止观察。

例如,由于 HTTP 响应延迟时间超过 2 秒且持续 10 分钟,提醒政策生成了突发事件。如果 HTTP 响应延迟时间的下一次测量结果少于或等于 2 秒,则突发事件结束。同样,如果 7 天内未收到任何数据,则突发事件结束。

如需结束突发事件,请执行以下操作:

  1. 提醒页面的突发事件窗格中,点击查看所有突发事件
  2. 突发事件页面上,找到要结束的突发事件,然后执行以下操作之一:

    • 点击  查看更多,然后选择关闭突发事件
    • 打开相应突发事件的突发事件详情页面,然后点击结束突发事件
如果您看到消息 Unable to close incident with active conditions,则无法关闭突发事件,因为系统在最近提醒期内已收到数据。

如果您看到消息 Unable to close incident. Please try again in a few minutes.,则表示由于内部错误,突发事件无法关闭。

数据保留和限制

如需了解限制和突发事件保留期限, 请参阅提醒限制

后续步骤