提醒概览

本文档介绍了如何在应用失败或应用性能不符合既定标准时接收通知。

提醒工作的工作原理

Cloud Monitoring 提醒过程包含三个部分:

  • 一项提醒政策,用于描述您希望在哪些情况下收到提醒,以及您希望如何收到有关突发事件的通知。提醒政策可以监控 Cloud Monitoring 存储的时间序列数据或 Cloud Logging 存储的日志。当该数据满足提醒政策条件时,Cloud Monitoring 会创建一个突发事件并发送通知。

  • 每个突发事件都是一条记录,包含受监控的数据类型以及满足条件的时间。此信息可帮助您排查导致突发事件的问题。

  • 通知渠道定义了在 Cloud Monitoring 创建突发事件时如何接收通知。例如,您可以配置通知渠道以向 my-support-team@example.com 发送电子邮件,并向渠道 #my-support-team 发布 Slack 消息。一项提醒政策可以包含一个或多个通知渠道。

提醒政策可以评估两种类型的数据:

  • 由 Monitoring 存储的时间序列数据(也称为指标数据)。这些类型的政策称为基于指标的提醒政策。

    如需了解如何设置基于指标的提醒政策,请参阅 Compute Engine 快速入门

  • Cloud Logging 存储的日志数据。这些类型的政策称为基于日志的提醒政策。基于日志的提醒政策可在日志中出现特定消息时通知您。

    本文档重点介绍基于指标的提醒政策,并在相关时提供有关基于日志的提醒政策的一般信息。如需详细了解基于日志的提醒政策,请参阅监控日志

当应用性能不符合可接受的值时,提醒流程可帮助您应对问题。例如,您可以将 Web 应用部署到 Compute Engine 虚拟机 (VM) 实例上。虽然您预计 HTTP 响应延迟时间会波动,但您希望支持团队在应用较长时间段内的延迟时间较长时做出响应。您可以创建基于指标的提醒政策,以监控应用的 HTTP 响应延迟时间指标。如果响应延迟时间超过两秒,并持续五分钟,则 Monitoring 会创建一个突发事件,并向您的支持团队发送电子邮件通知。

如何创建提醒政策

您可以通过多种方式创建提醒政策。例如,您可以通过启用来自集成或 Google Cloud 控制台某些页面的建议提醒,使用预配置的提醒政策。您还可以使用 Google Cloud 控制台、Cloud Monitoring APIGoogle Cloud CLITerraform 配置新的提醒政策。

使用集成和建议的提醒

Cloud Monitoring 提供预构建的软件包,可让您为 Google Cloud 服务和第三方集成创建提醒政策。这些软件包包含建议的提醒政策、示例信息中心和该服务的关键指标。这些软件包适用于 Google Cloud 服务(例如 Google Kubernetes Engine、Compute Engine 和 Cloud SQL)以及常见的第三方集成服务(例如 MongoDB、Kafka 和 Elasticsearch)。

安装软件包时,您可以启用软件包的推荐提醒。启用提醒时,您需要提供通知渠道并使用提醒默认配置,或根据需要调整配置。提醒政策会立即开始监控其目标,而无需额外的用户输入。

如果您部署了新服务并希望就重要指标发出提醒,建议的提醒政策非常有用。例如,CloudSQL 集成软件包随附针对失败实例和事务缓慢的推荐提醒:

这是为 CloudSQL 集成软件包推荐的两种提醒。

如需详细了解如何提醒集成,请参阅监控第三方应用

使用 Cloud Monitoring

如果您想要创建提醒政策并选择其条件类型以及其他组成部分(例如指标类型和时序),请使用 Cloud Monitoring。下表列出了在创建提醒政策时可以使用的不同类型的条件。

条件类型 说明 示例
指标阈值条件

在特定考量时长内,指标值大于或小于阈值时触发指标阈值条件。

如需了解详情,请参阅创建指标阈值提醒政策使用 API 创建提醒政策

您希望一项提醒政策,在 10 分钟的连续 5 次拨测中,当资源延迟时间达到 500 毫秒或更长时间时发送提醒。
指标缺失条件

当受监控的时序在特定考量时长内没有任何数据时,就会触发指标缺失条件。如果您在 Google Cloud 控制台中创建条件,则时长最长可达 24 小时,而在 Cloud Monitoring API 中创建条件则最长为 24.5 小时。

如需了解详情,请参阅创建指标缺失提醒政策使用 API 创建提醒政策

您希望一项提醒政策,当某个资源在五分钟内没有响应任何 HTTP 请求时,向支持团队创建一个突发事件。
预测的指标值条件

当提醒政策预测在即将到来的预测期内将违反阈值时,就会触发预测指标值条件。预测期的范围从 1 小时到 7 天不等。

如需了解详情,请参阅创建预测的指标值提醒政策使用 API 创建提醒政策

您需要一个提醒政策,以便在资源在未来 24 小时内达到 80% 的磁盘空间使用量时,向支持团队创建一个突发事件。
基于日志的条件

当提醒政策检测到基于日志的指标与提醒政策条件匹配时,将触发基于日志的提醒条件。基于日志的指标会从日志条目的内容派生指标数据。例如,您可以使用基于日志的指标来统计包含特定消息的日志条目的数量,或者提取日志条目中记录的延迟时间信息。

如需了解详情,请参阅配置基于日志的提醒使用 Monitoring API 创建基于日志的提醒

您需要一个提醒政策,以便在项目至少有 50 个日志条目且 message 包含 product_ids=['tier_1_support', 'tier_2_support'] 时向支持团队创建突发事件

提醒政策组件

每个提醒政策都包含以下组成部分:

  • 描述一项资源或一组资源何时处于需要您响应的状态的条件。条件包括数据源、静态或动态阈值,以及回溯期、过滤条件和分组依据等数据汇总方法。您的条件可以监控单个指标、多个指标或指标比率。您还可以使用查询语言(例如 PromQL 和 Monitoring Query Language (MQL))来包含复杂表达式,例如动态阈值和条件逻辑。

    如果您使用集成启用建议的提醒政策,则系统会预先填充提醒政策条件。

  • 通知渠道列表,其中说明了当需要执行操作时要通知谁。如需了解详情,请参阅创建和管理通知渠道

  • 通知页面和突发事件页面中显示的文档。您可以配置通知的主题行,还可以在通知正文中添加有用的信息。例如,您可以将通知配置为显示指向内部 playbook 或 Google Cloud 页面(如自定义信息中心)的链接。 如需详细了解文档(包括示例),请参阅使用用户定义的文档为提醒添加注解

查询语言

在提醒政策中使用查询语言和过滤条件可以更好地控制指标评估。Cloud Monitoring 支持以下查询类型:

  • 借助 PromQL 提醒,您可以将提醒政策配置为使用 Prometheus 查询语言。您的 PromQL 查询可以使用任何类型的有效 Prometheus 查询语言表达式,例如指标组合、比率和伸缩阈值。PromQL 提醒还支持完全基于 Google Cloud CLI 执行提醒,消除了对外部提醒基础架构的依赖。如需了解详情,请参阅 Cloud Monitoring 中的 PromQL使用 PromQL 的提醒政策

  • Monitoring Query Language (MQL) 是一个基于文本的富有表现力的界面,可用于检索、过滤和操控时间序列数据。您可以创建包含 Monitoring Query Language 提醒操作条件的提醒政策。如需了解详情,请参阅 Monitoring Query Language 概览使用 MQL 的提醒政策

  • 通过监控过滤条件,您可以将提醒政策配置为使用基于过滤条件的指标比率。无法在 Google Cloud 控制台中查看或修改基于过滤条件的提醒政策。如需查看使用 Monitoring 过滤条件的政策示例,请参阅指标比率

管理提醒政策和突发事件

启用提醒政策后,Cloud Monitoring 会持续监控该政策的条件。您不能将提醒政策配置为仅监控特定时间段内的条件。如果要在特定时间段内停用提醒政策,请创建暂停

如果突发事件尚未解决,并且 Monitoring 确定基于指标的政策的条件不再满足,则 Monitoring 会自动关闭突发事件,并发送有关关闭的通知。

与提醒政策关联的费用

如需了解价格信息,请参阅 Google Cloud 的运维套件的价格

后续步骤