参加 2021 年 DevOps 现状问卷调查,塑造软件运维的未来,让我们了解您的想法。

提醒简介

借助提醒,您可以及时得知云端应用中出现的问题,从而快速解决问题。

在 Cloud Monitoring 中,“提醒政策”描述了您希望在哪些情况下收到提醒以及希望如何获得通知。本页面简要介绍了提醒政策。

如需了解如何设置提醒政策,请参阅 Compute Engine 快速入门

提醒工作的工作原理

每个提醒政策指定以下信息:

  • 条件:用于说明一项资源或一组资源何时处于需要您采取行动的状态。一项提醒政策必须至少包含一个条件;不过,您可以将政策配置为包含多个条件

    例如,您可按如下方式配置条件:

    The HTTP response latency is higher than two seconds for at least five minutes.
    

    在此示例中,条件会监控指标 HTTP 响应延迟时间,并指定指标值何时需要您采取行动。

  • 通知渠道描述在需要采取措施时通知谁。您可以在提醒政策中添加多个通知渠道。Cloud Monitoring 支持常见的通知渠道以及 Cloud Mobile App 和 Pub/Sub。如需查看所支持渠道的完整列表以及关于如何配置这些渠道的信息,请参阅通知选项

    例如,您可以将提醒政策配置为向 my-support-team@example.com 发送电子邮件以及向频道 #my-support-team 发布 Slack 消息。

  • 您希望包含在通知中的文档。文档字段支持纯文本、Markdown 和变量

    例如,您可以在提醒政策中添加以下文档:

    ## HTTP latency responses
    
    This alert originated from the project ${project}, using
    the variable $${project}.
    

配置提醒政策后,Monitoring 会持续监控该政策的条件。您不能将条件配置为仅监控特定时间段。当该政策满足条件时,即当资源状态需要您执行操作时,Monitoring 会创建一个突发事件并发送有关突发事件的通知创建。此通知包含有关突发事件的摘要信息、政策详情页面的链接(以便您调查突发事件)以及任何文档。

如果已打开突发事件,并且 Monitoring 确定不再满足该政策的条件,则 Monitoring 会自动关闭突发事件并发送关闭通知。

示例

您将 Web 应用部署到运行 Web 应用的 Compute Engine 虚拟机 (VM) 实例上。虽然您知道 HTTP 响应延迟时间可能会随着正常需求的增减而波动,但如果您的用户开始长时间经历高延时,您还是希望收到通知,以使支持团队能够采取行动。

要在用户经历高延时的时候收到通知,请创建以下提醒政策:

  If the HTTP response latency is higher than two seconds for at least five minutes,
  then open an incident and send an email to your support team.

在此提醒政策中,条件用于监控 HTTP 响应延迟时间。如果此延迟时间超过两秒且持续五分钟,则表示条件得到满足并且会创建一个突发事件。延迟时间的瞬态高峰不会导致条件得到满足,或不会导致创建突发事件。

事实证明,您的 Web 应用非常受欢迎,响应延迟时间超过两秒钟。对此,您的提醒政策通过以下方式进行响应:

  1. Monitoring 在收到超过两秒的 HTTP 延迟时间测量结果时,会启动一个五分钟的计时器。

  2. 如果在接下来的五分钟内收到的每个延迟时间测量结果超过两秒,则计时器会到期。当计时器到期时,Monitoring 会将条件标记为满足,它将打开一个突发事件,并向支持团队发送电子邮件。

  3. 您的支持团队会收到该电子邮件,请登录到 Cloud Console 并确认收到通知。

  4. 按照通知电子邮件中的文档操作,您的支持团队可以解决延迟问题。在几分钟之内,HTTP 响应延迟时间会降到两秒以下。

  5. 当 Monitoring 收到 HTTP 延迟时间测量结果低于两秒时,它会关闭突发事件并向支持团队发送通知,告知突发事件已关闭。

在突发事件关闭后,如果 HTTP 响应延迟时间超过两秒且持续高于该阈值达五分钟,则 Monitoring 会打开一个新突发事件并发送通知电子邮件。

添加提醒政策的工作原理

您可以使用 Google Cloud Console、Cloud Monitoring APICloud SDK 向 Google Cloud 项目添加提醒政策:

  • 如果您使用 Cloud Console,则可以启用推荐的提醒,也可以从 Cloud Monitoring 的提醒页面开始创建提醒。

    部分 Google Cloud 产品可以使用建议的提醒。这些提醒需要最低配置,例如添加通知渠道。例如,如果您查看的是 Pub/Sub 精简版主题页面,则可以启用提醒,以便在接近配额限制时收到通知。同样,如果您是在 Monitoring 中查看虚拟机实例页面,则可以启用建议的提醒政策,以便监控这些实例的内存利用率和网络延迟时间。

    如需了解如何在 Cloud Monitoring 的提醒页面中开始创建提醒政策,请参阅使用 Cloud Console 创建提醒政策

  • 如果您直接使用 Cloud Monitoring API 或使用 Cloud SDK,则可以创建、查看和修改提醒政策。如果您希望提醒政策的条件计算两个指标的比率,然后将该比率与阈值进行比较,则必须使用 Cloud Monitoring API 或 Cloud SDK 创建该政策如需查看此类政策的示例,请参阅指标比率

    如需详细了解如何使用 Cloud Monitoring API 和 Cloud SDK,请参阅使用 Cloud Monitoring API 或 Cloud SDK 创建提醒政策

Cloud Monitoring 支持一项富有表现力的文本型语言,它可用于 Google Cloud Console 和 Cloud Monitoring API。如需了解如何将此语言用于提醒,请参阅使用 Monitoring Query Language (MQL) 创建提醒政策

管理提醒政策的工作原理

如需了解如何查看项目的提醒政策列表以及如何修改这些政策,请参阅以下内容:

创建提醒政策所需的授权

本部分介绍创建提醒政策所需的角色或权限。如需详细了解 Cloud Monitoring 的身份和访问权限管理 (IAM),请参阅访问权限控制

每个 IAM 角色都有一个 ID 和一个名称。角色 ID 的格式为 roles/monitoring.editor,并在配置访问权限控制时作为参数传递给 gcloud 命令行工具。如需了解详情,请参阅授予、更改和撤消访问权限。角色名称(例如 Monitoring Editor)由 Cloud Console 显示。

所需 Cloud Console 角色

要创建提醒政策,Google Cloud 项目的 IAM 角色名称必须为以下其中一项:

  • Monitoring Editor
  • Monitoring Admin
  • Project Owner

如需查看角色列表及其关联的权限,请参阅角色

所需 API 权限

要使用 Cloud Monitoring API 创建提醒政策,Google Cloud 项目的 IAM 角色 ID 必须为以下其中一项:

  • roles/monitoring.alertPolicyEditor:此角色 ID 授予创建提醒政策所需的最小权限。如需详细了解此角色,请参阅预定义的提醒角色
  • role/monitoring.editor
  • role/monitoring.admin
  • role/owner

如需确定特定 Cloud Monitoring API 方法所需的权限,请参阅 Cloud Monitoring API 权限。如需查看角色列表及其关联的权限,请参阅角色

确定您的角色

要使用 Cloud Console 确定项目的角色,请执行以下操作:

  1. 打开 Cloud Console 并选择 Google Cloud 项目:

    转到 Cloud Console

  2. 如需查看您的角色,请点击 IAM 和管理。您的角色与您的用户名在同一行。

如需确定您的组织级别权限,请与组织管理员联系。

与提醒政策关联的费用

使用提醒政策或正常运行时间检查不产生任何费用,但具有以下限制:

类别
每个指标范围 的正常运行时间检查数量1 100
每个指标范围的提醒政策2 500
每项提醒政策的条件数量 6
每项提醒政策的通知渠道数量 16
每个指标范围的通知渠道 4000
每项提醒政策同时存在的未解决突发事件数量 5000
指标缺失条件存在的最长时间 1 天
指标阈值条件存在的最长时间 23 小时 30 分钟
1此限制适用于正常运行时间检查配置的数量。每个正常运行时间检查配置包括指定资源两次状态测试之间相隔的时间。如需了解详情,请查看管理正常运行时间检查

2ApigeeApigee Hybrid 已与 Cloud Monitoring 集成。所有 Apigee 订阅层级(标准版、企业版和企业加强版)的提醒限制与 Cloud Monitoring 相同,即每个指标范围 500 个。

如需获得完整的价格信息,请参阅 Google Cloud 的运维套件的价格

后续步骤