提醒简介

借助提醒,您可以及时得知云端应用中出现的问题,从而快速解决问题。

在 Cloud Monitoring 中,“提醒政策”描述了您希望在哪些情况下收到提醒以及希望如何获得通知。本页面简要介绍了提醒政策。

用于跟踪 Cloud Monitoring 收集的指标数据的提醒政策称为基于指标的提醒政策。关于提醒政策的大多数 Cloud Monitoring 文档假定您使用的是基于指标的提醒政策。如需了解如何设置基于指标的提醒政策,请参阅 Compute Engine 快速入门

您还可以创建基于日志的提醒政策,以便在特定消息显示在日志中时通知您。这些政策并非基于指标。此内容不适用于基于日志的提醒政策。如需了解基于日志的提醒政策,请参阅监控日志

提醒工作的工作原理

每个提醒政策指定以下信息:

  • 条件:用于说明一项资源或一组资源何时处于需要您采取行动的状态。一项提醒政策必须至少包含一个条件;不过,您可以将政策配置为包含多个条件

    例如,您可按如下方式配置条件:

    The HTTP response latency is higher than two seconds for at least five minutes.
    

    在此示例中,条件会监控指标 HTTP 响应延迟时间,并指定指标值何时需要您采取行动。

  • 通知渠道描述在需要采取措施时通知谁。您可以在提醒政策中添加多个通知渠道。Cloud Monitoring 支持常见的通知渠道以及 Cloud Mobile App 和 Pub/Sub。如需查看所支持渠道的完整列表以及关于如何配置这些渠道的信息,请参阅通知选项

    例如,您可以将提醒政策配置为向 my-support-team@example.com 发送电子邮件以及向频道 #my-support-team 发布 Slack 消息。

  • 您希望包含在通知中的文档。文档字段支持纯文本、Markdown 和变量

    例如,您可以在提醒政策中添加以下文档:

    ## HTTP latency responses
    
    This alert originated from the project ${project}, using
    the variable $${project}.
    

配置基于指标的提醒政策后,Monitoring 会持续监控该政策的条件。您不能将条件配置为仅监控特定时间段。当该政策满足条件时,即当资源状态需要您执行操作时,Monitoring 会创建一个突发事件并发送有关突发事件的通知创建。此通知包含有关突发事件的摘要信息、政策详情页面的链接(以便您调查突发事件)以及任何文档。

如果已打开突发事件,并且 Monitoring 确定不再满足基于指标的政策的条件,则 Monitoring 会自动关闭突发事件并发送关闭通知。

示例

您将 Web 应用部署到运行 Web 应用的 Compute Engine 虚拟机 (VM) 实例上。虽然您知道 HTTP 响应延迟时间可能会随着正常需求的增减而波动,但如果您的用户开始长时间经历高延时,您还是希望收到通知,以使支持团队能够采取行动。

要在用户经历高延时的时候收到通知,请创建以下提醒政策:

  If the HTTP response latency is higher than two seconds for at least five minutes,
  then open an incident and send an email to your support team.

在此提醒政策中,条件用于监控 HTTP 响应延迟时间。如果此延迟时间超过两秒且持续五分钟,则表示条件得到满足并且会创建一个突发事件。延迟时间的瞬态高峰不会导致条件得到满足,或不会导致创建突发事件。

事实证明,您的 Web 应用非常受欢迎,响应延迟时间超过两秒钟。对此,您的提醒政策通过以下方式进行响应:

  1. Monitoring 在收到超过两秒的 HTTP 延迟时间测量结果时,会启动一个五分钟的计时器。

  2. 如果在接下来的五分钟内收到的每个延迟时间测量结果超过两秒,则计时器会到期。当计时器到期时,Monitoring 会将条件标记为满足,它将打开一个突发事件,并向支持团队发送电子邮件。

  3. 您的支持团队会收到该电子邮件,请登录到 Cloud Console 并确认收到通知。

  4. 按照通知电子邮件中的文档操作,您的支持团队可以解决延迟问题。在几分钟之内,HTTP 响应延迟时间会降到两秒以下。

  5. 当 Monitoring 收到 HTTP 延迟时间测量结果低于两秒时,它会关闭突发事件并向支持团队发送通知,告知突发事件已关闭。

在突发事件关闭后,如果 HTTP 响应延迟时间超过两秒且持续高于该阈值达五分钟,则 Monitoring 会打开一个新突发事件并发送通知电子邮件。

添加提醒政策的工作原理

您可以使用 Google Cloud Console、Cloud Monitoring APICloud SDK 向 Google Cloud 项目添加基于指标的提醒政策:

  • 如果您使用 Cloud Console,则可以启用推荐的提醒,也可以从 Cloud Monitoring 的提醒页面开始创建提醒。

    部分 Google Cloud 产品可以使用建议的提醒。这些提醒需要最低配置,例如添加通知渠道。例如,如果您查看的是 Pub/Sub 精简版主题页面,则可以启用提醒,以便在接近配额限制时收到通知。同样,如果您是在 Monitoring 中查看虚拟机实例页面,则可以启用建议的提醒政策,以便监控这些实例的内存利用率和网络延迟时间。

    如需了解如何在 Cloud Monitoring 的提醒页面中开始创建提醒政策,请参阅使用 Cloud Console 创建提醒政策

  • 如果您直接使用 Cloud Monitoring API 或使用 Cloud SDK,则可以创建、查看和修改提醒政策。如果您希望提醒政策的条件计算两个指标的比率,然后将该比率与阈值进行比较,则必须使用 Cloud Monitoring API 或 Cloud SDK 创建该政策如需查看此类政策的示例,请参阅指标比率

    如需详细了解如何使用 Cloud Monitoring API 和 Cloud SDK,请参阅使用 Cloud Monitoring API 或 Cloud SDK 创建提醒政策

Cloud Monitoring 支持一项富有表现力的文本型语言,它可用于 Google Cloud Console 和 Cloud Monitoring API。如需了解如何将此语言用于提醒,请参阅使用 Monitoring Query Language (MQL) 创建提醒政策

您可以使用 Cloud Logging 中的日志浏览器或使用 Monitoring API 向 Google Cloud 项目添加基于日志的提醒政策。此内容不适用于基于日志的提醒政策。如需了解基于日志的提醒政策,请参阅监控日志

管理提醒政策的工作原理

如需了解如何查看项目的基于指标的提醒政策列表以及如何修改这些政策,请参阅以下内容:

如需了解如何管理基于日志的提醒政策,请参阅使用基于日志的提醒

创建提醒政策所需的授权

本部分介绍创建提醒政策所需的角色或权限。如需详细了解 Cloud Monitoring 的身份和访问权限管理 (IAM),请参阅访问权限控制

每个 IAM 角色都有一个 ID 和一个名称。角色 ID 的格式为 roles/monitoring.editor,并在配置访问权限控制时作为参数传递给 gcloud 命令行工具。如需了解详情,请参阅授予、更改和撤消访问权限。角色名称(例如 Monitoring Editor)由 Cloud Console 显示。

所需 Cloud Console 角色

要创建提醒政策,Google Cloud 项目的 IAM 角色名称必须为以下其中一项:

  • Monitoring Editor
  • Monitoring Admin
  • Project Owner

如需查看角色列表及其关联的权限,请参阅角色

所需 API 权限

要使用 Cloud Monitoring API 创建提醒政策,Google Cloud 项目的 IAM 角色 ID 必须为以下其中一项:

  • roles/monitoring.alertPolicyEditor:此角色 ID 授予创建提醒政策所需的最小权限。如需详细了解此角色,请参阅预定义的提醒角色
  • role/monitoring.editor
  • role/monitoring.admin
  • role/owner

如需确定特定 Cloud Monitoring API 方法所需的权限,请参阅 Cloud Monitoring API 权限。如需查看角色列表及其关联的权限,请参阅角色

确定您的角色

要使用 Cloud Console 确定项目的角色,请执行以下操作:

  1. 打开 Cloud Console 并选择 Google Cloud 项目:

    转到 Cloud Console

  2. 如需查看您的角色,请点击 IAM 和管理。您的角色与您的用户名在同一行。

如需确定您的组织级别权限,请与组织管理员联系。

与提醒政策关联的费用

使用提醒政策或正常运行时间检查不产生任何费用,但具有以下限制:

类别 政策类型1
每个指标范围的提醒政策(指标和日志的总和)2 500 指标、日志
每项提醒政策的条件数量 6 指标
指标缺失条件评估的
最长时间段3
1 天 指标
指标阈值条件评估的
最长时间段3
23 小时 30 分钟 指标
每项提醒政策的通知渠道数量 16 指标、日志
通知率上限 每个基于日志的提醒每 5 分钟 1 条通知 日志
通知数上限 每个基于日志的提醒每天 20 条通知 日志
每项提醒政策同时打开的突发事件数量上限
5000 指标
无新数据突发事件的
自动关闭期
7 天 指标
非手动关闭的突发事件最长持续时间 7 天 日志
已关闭的突发事件的保留期限 90 天 不适用
未结突发事件的保留期限 无限期 不适用
每个指标范围的通知渠道 4000 不适用
每个指标范围的拨测4 100 不适用
1指标:基于指标数据的提醒政策;日志:基于日志消息的提醒政策(基于日志的提醒)
2ApigeeApigee Hybrid 与 Cloud Monitoring 深度集成。所有 Apigee 订阅层级(标准版、企业版和企业加强版)的提醒限制与 Cloud Monitoring 相同,即每个指标范围 500 个。
3条件评估的最长时间段是校准时间段和时长窗口值的总和。例如,如果将校准时间段设置为 15 小时,并将时长窗口设置为 15 小时,则需要 30 小时的数据来评估条件。
4此限制适用于正常运行时间检查配置的数量。每个拨测配置包括指定资源两次状态测试之间相隔的时间。如需了解详情,请查看管理正常运行时间检查

如需获得完整的价格信息,请参阅 Google Cloud 的运维套件的价格

后续步骤