借助提醒,您可以及时了解您的云应用中出现的问题,从而快速解决问题。在 Cloud Monitoring 中,“提醒政策”描述了您希望在哪些情况下收到提醒以及希望如何获得通知。本页面简要介绍了提醒政策。
用于跟踪 Cloud Monitoring 收集的指标数据的提醒政策称为基于指标的提醒政策。关于提醒政策的大多数 Cloud Monitoring 文档假定您使用的是基于指标的提醒政策。如需了解如何设置基于指标的提醒政策,请参阅 Compute Engine 快速入门。
您还可以创建基于日志的提醒政策,以便在特定消息显示在日志中时通知您。这些政策并非基于指标。此内容不适用于基于日志的提醒政策。如需了解基于日志的提醒政策,请参阅监控日志。
提醒工作的工作原理
每个提醒政策指定以下信息:
用于描述资源(或一组资源)处于需要响应的状态的条件。例如,您可以按如下方式配置条件:
The HTTP response latency is higher than two seconds for at least five minutes.
在此示例中,该条件监控的是 HTTP 响应延迟时间指标,当五分钟内的所有延迟测量结果超过两秒时触发。
条件有三种类型:
- 当指标值大于或等于特定时长窗口的阈值时,就会触发指标阈值条件。
- 如果对于某个时长窗口没有测量结果,就会触发指标缺失条件。
- 预测条件通过使用先前的数据来预测测量结果的未来行为。当预测某个预测会超出预测时间范围内的阈值时,这些条件就会触发。
提醒政策必须至少包含一个条件;但是,您可以将政策配置为包含多个条件。
通知渠道描述在需要采取措施时通知谁。您可以在提醒政策中添加多个通知渠道。除了常见的通知渠道之外,Cloud Monitoring 还支持 Cloud Mobile App 和 Pub/Sub。如需查看受支持渠道的完整列表以及有关如何配置这些渠道的信息,请参阅创建和管理通知渠道。
例如,您可以将提醒政策配置为向
my-support-team@example.com
发送电子邮件以及向频道#my-support-team
发布 Slack 消息。您希望包含在通知中的文档。文档字段支持纯文本、Markdown 和变量。
例如,您可以在提醒政策中添加以下文档:
## HTTP latency responses This alert originated from the project ${project}, using the variable $${project}.
配置基于指标的提醒政策后,Monitoring 会持续监控该政策的条件。您不能将条件配置为仅监控特定时间段。
当提醒政策的条件被触发时,Monitoring 会创建一个突发事件并发送有关突发事件创建的通知。此通知包含有关突发事件的摘要信息、政策详情页面的链接(以便您调查突发事件)以及任何文档。
如果已打开突发事件,并且 Monitoring 确定不再满足基于指标的政策的条件,则 Monitoring 会自动关闭突发事件并发送关闭通知。
示例
您将 Web 应用部署到运行 Web 应用的 Compute Engine 虚拟机 (VM) 实例上。虽然您预计 HTTP 响应延迟时间会波动,但您希望支持团队在应用的延迟时间较长时做出响应。
如需确保支持团队在应用遇到高延迟时收到通知,您可以创建以下提醒政策:
If the HTTP response latency is higher than two seconds for at least five minutes, then open an incident and send an email to your support team.
在此提醒政策中,指标阈值条件监控的是 HTTP 响应延迟时间。如果此延迟连续五分钟超过两秒,将触发条件并创建突发事件。短暂的延迟高峰不会导致触发条件或创建突发事件。
事实证明,您的 Web 应用很受欢迎,响应延迟时间超过两秒钟。对此,您的提醒政策通过以下方式进行响应:
Monitoring 在收到超过两秒的 HTTP 延迟时间测量结果时,会启动一个五分钟的计时器。
如果在接下来的五分钟内收到的每个延迟时间测量结果超过两秒,则计时器会到期。当计时器到期时,系统会触发条件,同时 Monitoring 会打开一个突发事件并向您的支持团队发送电子邮件。
您的支持团队会收到电子邮件,登录 Google Cloud 控制台,并确认收到通知。
按照通知电子邮件中的文档操作,您的支持团队可以解决延迟问题。在几分钟之内,HTTP 响应延迟时间会降到两秒以下。
当 Monitoring 收到 HTTP 延迟时间测量结果在两秒以下时,它会关闭突发事件并向支持团队发送通知,告知突发事件已关闭。
如果延迟时间超过两秒且持续高于该阈值达五分钟,则会打开一个新的突发事件并发送通知。
添加提醒政策的工作原理
您可以使用 Google Cloud 控制台、Cloud Monitoring API 或 Google Cloud CLI 为您的 Google Cloud 项目添加基于指标的提醒政策:
使用 Google Cloud 控制台时,您可以启用建议的提醒,也可以从 Cloud Monitoring 的提醒页面创建提醒。
部分 Google Cloud 产品可以使用建议的提醒。这些提醒需要最低配置,例如添加通知渠道。例如,Pub/Sub Lite 主题页面会链接到配置为在达到配额限制时通知您的提醒。同样,Monitoring 中的虚拟机实例页面也链接到配置为监控这些实例的内存利用率和网络延迟时间的提醒政策。
如需了解如何创建提醒政策,请参阅以下文档:
您使用 Google Cloud 控制台创建的任何政策,也可以使用 Google Cloud 控制台或 Cloud Monitoring API 进行修改和查看。借助 Cloud Monitoring API,您可以创建提醒政策来监控指标的比率。如果这些政策使用 Monitoring 过滤条件,您将无法使用 Google Cloud 控制台查看或修改它们。
直接使用 Cloud Monitoring API 或使用 Google Cloud CLI 时,可以创建、查看和修改提醒政策。
如需了解详情,请参阅使用 Cloud Monitoring API 或 Google Cloud CLI 创建提醒政策。
您可以创建监控单个指标、多个指标或指标比率的条件。使用 Cloud Monitoring API 时,您可以使用 Monitoring Query Language (MQL) 或使用 Monitoring 过滤条件来指定比率。如需查看使用 Monitoring 过滤条件的政策示例,请参阅指标比率。
Cloud Monitoring 支持基于文本的表达语言,可与 Google Cloud 控制台和 Cloud Monitoring API 搭配使用。如需了解如何将此语言用于提醒,请参阅使用 Monitoring Query Language (MQL) 创建提醒政策。
您可以使用 Cloud Logging 中的日志浏览器或使用 Monitoring API 向 Google Cloud 项目添加基于日志的提醒政策。此内容不适用于基于日志的提醒政策。如需了解基于日志的提醒政策,请参阅监控日志。
与提醒政策关联的费用
使用提醒政策不会产生任何相关费用。如需了解拨测的价格,请参阅 Cloud Monitoring 价格摘要。
使用提醒政策和拨测时存在以下限制:
类别 | 值 | 政策类型1 |
---|---|---|
每个指标范围的提醒政策(指标和日志的总和)2 | 500 | 指标、日志 |
每项提醒政策的条件数量 | 6 | 指标 |
指标缺失条件评估的 最长时间段3 |
1 天 | 指标 |
指标阈值条件评估的 最长时间段3 |
23 小时 30 分钟 | 指标 |
使用指标阈值 时,过滤器的最长长度 |
2,048 个 Unicode 字符 | 指标 |
受预测条件监控的时序数上限 |
64 | 指标 |
最短预测期限 | 1 小时(3,600 秒) | 指标 |
预测时间范围上限 | 7 天(604800 秒) | 指标 |
每项提醒政策的通知渠道数量 | 16 | 指标、日志 |
通知率上限 | 每个基于日志的提醒每 5 分钟 1 条通知 | 日志 |
通知数上限 | 每个基于日志的提醒每天 20 条通知 | 日志 |
每项提醒政策同时打开的突发事件数量上限 |
1,000 | 指标 |
无新数据突发事件的 自动关闭期 |
7 天 | 指标 |
非手动关闭的突发事件最长持续时间 | 7 天 | 日志 |
已关闭的突发事件的保留期限 | 13 个月 | 不适用 |
未结突发事件的保留期限 | 无限期 | 不适用 |
每个指标范围的通知渠道 | 4000 | 不适用 |
每次暂停的提醒政策数量上限 | 16 | 指标、日志 |
延后 | 13 个月 | 不适用 |
每个指标范围的拨测4 | 100 | 不适用 |
每个公共拨测的 ICMP ping 数量上限 | 3 | 不适用 |
2Apigee 和 Apigee Hybrid 与 Cloud Monitoring 深度集成。所有 Apigee 订阅层级(标准版、企业版和企业加强版)的提醒限制与 Cloud Monitoring 相同,即每个指标范围 500 个。
3条件评估的最长时间段是校准时间段和时长窗口值的总和。例如,如果将校准时间段设置为 15 小时,并将时长窗口设置为 15 小时,则需要 30 小时的数据来评估条件。
4此限制适用于正常运行时间检查配置的数量。每个拨测配置包括指定资源两次状态测试之间相隔的时间。如需了解详情,请查看管理拨测。
如需获得完整的价格信息,请参阅 Google Cloud 的运维套件的价格。
后续步骤
如需了解通知延迟以及提醒政策的参数选择对发送通知的时间有何影响,请参阅基于指标的提醒政策的行为。
如需查看基于指标的政策示例列表,请参阅示例提醒政策摘要。
如需了解如何监控注入的跟踪记录 span 或日志的数量,或者如何在日志条目中包含特定内容时收到通知,请参阅以下内容: