提醒简介

使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

借助提醒,您可以及时得知云端应用中出现的问题,从而快速解决问题。

在 Cloud Monitoring 中,“提醒政策”描述了您希望在哪些情况下收到提醒以及希望如何获得通知。本页面简要介绍了提醒政策。

用于跟踪 Cloud Monitoring 收集的指标数据的提醒政策称为基于指标的提醒政策。关于提醒政策的大多数 Cloud Monitoring 文档假定您使用的是基于指标的提醒政策。如需了解如何设置基于指标的提醒政策,请参阅 Compute Engine 快速入门

您还可以创建基于日志的提醒政策,以便在特定消息显示在日志中时通知您。这些政策并非基于指标。此内容不适用于基于日志的提醒政策。如需了解基于日志的提醒政策,请参阅监控日志

提醒工作的工作原理

每个提醒政策指定以下信息:

  • 用于描述资源(或一组资源)处于需要响应的状态的条件。例如,您可以按如下方式配置条件:

    The HTTP response latency is higher than two seconds for at least five minutes.
    

    在此示例中,条件会监控 HTTP 响应延迟时间指标,并且它会在五分钟内的所有延迟测量时间都超过两秒时触发。

    条件有三种类型:

    • 当指标违反阈值时,就会触发指标阈值条件
    • 指标缺失条件在缺少测量结果时触发。
    • 预测条件使用先前的数据来预测测量结果的未来行为。当预测时序将超出预测时间范围内的阈值时,就会触发这些条件。

    提醒政策必须至少有一个条件;但是,您可以将政策配置为包含多个条件

  • 通知渠道描述在需要采取措施时通知谁。您可以在提醒政策中添加多个通知渠道。除了常见的通知渠道之外,Cloud Monitoring 还支持 Cloud Mobile App 和 Pub/Sub。如需查看所支持渠道的完整列表以及关于如何配置这些渠道的信息,请参阅通知选项

    例如,您可以将提醒政策配置为向 my-support-team@example.com 发送电子邮件以及向频道 #my-support-team 发布 Slack 消息。

  • 您希望包含在通知中的文档。文档字段支持纯文本、Markdown 和变量

    例如,您可以在提醒政策中添加以下文档:

    ## HTTP latency responses
    
    This alert originated from the project ${project}, using
    the variable $${project}.
    

配置基于指标的提醒政策后,Monitoring 会持续监控该政策的条件。您不能将条件配置为仅监控特定时间段。

当提醒政策的条件触发时,Monitoring 会创建一个突发事件并发送有关突发事件创建的通知。此通知包含有关突发事件的摘要信息、政策详情页面的链接(以便您调查突发事件)以及任何文档。

如果已打开突发事件,并且 Monitoring 确定不再满足基于指标的政策的条件,则 Monitoring 会自动关闭突发事件并发送关闭通知。

示例

您将 Web 应用部署到运行 Web 应用的 Compute Engine 虚拟机 (VM) 实例上。虽然您预计 HTTP 响应延迟时间会波动,但您希望支持团队在应用的延迟时间较长时做出响应。

如需确保支持团队在应用遇到高延迟时收到通知,您可以创建以下提醒政策:

  If the HTTP response latency is higher than two seconds for at least five
  minutes, then open an incident and send an email to your support team.

在此提醒政策中,指标阈值条件是监控 HTTP 响应延迟时间。如果此延迟连续五分钟超过两秒,系统会触发条件并创建突发事件。短暂的延迟高峰不会导致触发条件或创建突发事件。

事实证明,您的 Web 应用很受欢迎,响应延迟时间超过两秒钟。对此,您的提醒政策通过以下方式进行响应:

  1. Monitoring 在收到超过两秒的 HTTP 延迟时间测量结果时,会启动一个五分钟的计时器。

  2. 如果在接下来的五分钟内收到的每个延迟时间测量结果超过两秒,则计时器会到期。当计时器到期时,条件会触发,然后 Monitoring 会打开一个突发事件并向您的支持团队发送电子邮件。

  3. 您的支持团队会收到电子邮件,登录 Google Cloud 控制台,并确认收到通知。

  4. 按照通知电子邮件中的文档操作,您的支持团队可以解决延迟问题。在几分钟之内,HTTP 响应延迟时间会降到两秒以下。

  5. 当 Monitoring 收到 HTTP 延迟时间测量结果在两秒以下时,它会关闭突发事件并向支持团队发送通知,告知突发事件已关闭。

如果延迟时间超过两秒且持续高于该阈值达五分钟,则会打开一个新的突发事件并发送通知。

添加提醒政策的工作原理

您可以使用 Google Cloud 控制台、Cloud Monitoring APIGoogle Cloud CLI 向 Google Cloud 项目添加基于指标的提醒政策:

  • 使用 Google Cloud 控制台时,您可以启用推荐的提醒,也可以从 Cloud Monitoring 的提醒页面创建提醒。如需了解相关信息,请参阅使用 Google Cloud 控制台创建基于指标的提醒政策

    部分 Google Cloud 产品可以使用建议的提醒。这些提醒需要最低配置,例如添加通知渠道。例如,Pub/Sub Lite 主题页面会链接到配置为在达到配额限制时通知您的提醒。同样,Monitoring 中的虚拟机实例页面也链接到配置为监控这些实例的内存利用率和网络延迟时间的提醒政策。

    使用 Google Cloud 控制台创建的任何政策,您还可以使用 Google Cloud 控制台或 Cloud Monitoring API 进行修改和查看。借助 Cloud Monitoring API,您可以创建提醒政策来监控指标的比率。如果这些政策使用 Monitoring 过滤条件,您将无法使用 Google Cloud 控制台查看或修改这些过滤条件。

  • 直接使用 Cloud Monitoring API 或使用 Google Cloud CLI 时,可以创建、查看和修改提醒政策。如需了解详情,请参阅使用 Cloud Monitoring API 或 Google Cloud CLI 创建提醒政策

    您可以创建监控单个指标、多个指标或指标比率的条件。使用 Cloud Monitoring API 时,您可以使用 Monitoring Query Language (MQL) 或使用 Monitoring 过滤条件来指定比率。如需查看使用 Monitoring 过滤条件的政策示例,请参阅指标比率

Cloud Monitoring 支持可与 Google Cloud 控制台和 Cloud Monitoring API 配合使用的富有表现力的文本式语言。如需了解如何将此语言用于提醒,请参阅使用 Monitoring Query Language (MQL) 创建提醒政策

您可以使用 Cloud Logging 中的日志浏览器或使用 Monitoring API 向 Google Cloud 项目添加基于日志的提醒政策。此内容不适用于基于日志的提醒政策。如需了解基于日志的提醒政策,请参阅监控日志

管理提醒政策的工作原理

如需了解如何查看项目的基于指标的提醒政策列表以及如何修改这些政策,请参阅以下内容:

如需了解如何管理基于日志的提醒政策,请参阅使用基于日志的提醒

创建提醒政策所需的授权

本部分介绍创建提醒政策所需的角色或权限。如需详细了解 Cloud Monitoring 的身份和访问权限管理 (IAM),请参阅访问权限控制

每个 IAM 角色都有一个 ID 和一个名称。角色 ID 的格式为 roles/monitoring.editor,并在配置访问权限控制时作为参数传递给 Google Cloud CLI。如需了解详情,请参阅授予、更改和撤消访问权限。Google Cloud 控制台会显示角色名称,例如 Monitoring 编辑器。

必需的 Google Cloud Console 角色

要创建提醒政策,Google Cloud 项目的 IAM 角色名称必须为以下其中一项:

  • Monitoring Editor
  • Monitoring Admin
  • Project Owner

如需查看角色列表及其关联的权限,请参阅角色

所需 API 权限

要使用 Cloud Monitoring API 创建提醒政策,Google Cloud 项目的 IAM 角色 ID 必须为以下其中一项:

  • roles/monitoring.alertPolicyEditor:此角色 ID 授予创建提醒政策所需的最小权限。如需详细了解此角色,请参阅预定义的提醒角色
  • roles/monitoring.editor
  • roles/monitoring.admin
  • roles/owner

如需确定特定 Cloud Monitoring API 方法所需的权限,请参阅 Cloud Monitoring API 权限。如需查看角色列表及其关联的权限,请参阅角色

确定您的角色

如需使用 Google Cloud 控制台确定您在项目中的角色,请执行以下操作:

  1. 打开 Google Cloud 控制台,然后选择 Google Cloud 项目:

    转到 Google Cloud 控制台

  2. 如需查看您的角色,请点击 IAM 和管理。您的角色与您的用户名在同一行。

如需确定您的组织级别权限,请与组织管理员联系。

与提醒政策关联的费用

使用提醒政策不会产生任何相关费用。如需了解拨测的价格,请参阅 Cloud Monitoring 价格摘要

您在使用提醒政策和拨测时需遵循以下限制:

类别 政策类型1
每个指标范围的提醒政策(指标和日志的总和)2 500 指标、日志
每项提醒政策的条件数量 6 指标
指标缺失条件评估的
最长时间段3
1 天 指标
指标阈值条件评估的
最长时间段3
23 小时 30 分钟 指标
预测条件监控的时序数上限
64 指标
预测下限 1 小时(3600 秒) 指标
预测时间范围上限 7 天(604800 秒) 指标
每项提醒政策的通知渠道数量 16 指标、日志
通知率上限 每个基于日志的提醒每 5 分钟 1 条通知 日志
通知数上限 每个基于日志的提醒每天 20 条通知 日志
每项提醒政策同时打开的突发事件数量上限
1,000 指标
无新数据突发事件的
自动关闭期
7 天 指标
非手动关闭的突发事件最长持续时间 7 天 日志
已关闭的突发事件的保留期限 13 个月 不适用
未结突发事件的保留期限 无限期 不适用
每个指标范围的通知渠道 4000 不适用
每个指标范围的拨测4 100 不适用
每次公开拨测的 ICMP ping 数量上限 3 不适用
1指标:基于指标数据的提醒政策;日志:基于日志消息的提醒政策(基于日志的提醒)
2ApigeeApigee Hybrid 与 Cloud Monitoring 深度集成。所有 Apigee 订阅层级(标准版、企业版和企业加强版)的提醒限制与 Cloud Monitoring 相同,即每个指标范围 500 个。
3条件评估的最长时间段是校准时间段和时长窗口值的总和。例如,如果将校准时间段设置为 15 小时,并将时长窗口设置为 15 小时,则需要 30 小时的数据来评估条件。
4此限制适用于正常运行时间检查配置的数量。每个拨测配置包括指定资源两次状态测试之间相隔的时间。如需了解详情,请查看管理拨测

如需获得完整的价格信息,请参阅 Google Cloud 的运维套件的价格

后续步骤