管理基于指标的提醒政策

本文档介绍如何使用 Google Cloud Console 根据指标创建和管理提醒政策。此内容不适用于基于日志的提醒政策。如需了解基于日志的提醒政策(该政策在特定消息显示在日志中时通知您),请参阅监控日志

提醒政策描述了您要监控的一组条件。这些条件可能与应用的运行状况、系统指标的值或资源消耗有关。例如,您可能想要监控正常运行时间检查或监控 Cloud Monitoring API 使用情况的政策。通过提醒政策,您还可以指定在满足政策条件时接收通知的方式,以及要包含在该通知中的文档。

您还可以使用 Cloud Monitoring API 创建和管理提醒政策。如需详细了解此方法,请参阅通过 API 管理提醒政策。要查看以 JSON 表示的政策,请参阅示例政策

准备工作

创建提醒政策前,您应该熟悉提醒政策所用的一般概念和术语。如需了解政策的各个组成部分、突发事件的概念以及价格和限制,请参阅提醒简介

创建提醒政策

Cloud Monitoring 将刷新用于创建提醒政策的接口。本文档介绍旧版界面和预览界面。如果您选择试用预览版界面,然后想要使用旧版界面,请点击返回旧版界面

旧版接口

如需创建提醒政策,请执行以下操作:

  1. 在 Cloud Console 中,选择 Monitoring

    转到 Monitoring

  2. 选择提醒

  3. 点击创建政策以查看创建提醒政策页面:

    此时将显示“创建提醒政策”对话框。

    1. 点击添加条件并完成对话框。如需了解条件中的字段,请参阅指定条件

      条件描述了受监控的资源、该资源的指标以及何时满足条件。一个提醒政策必须至少包含 1 个条件,但提醒政策最多可以包含 6 个条件。如果提醒政策只有 1 个条件,当满足该条件时,会创建突发事件。如果提醒政策有多个条件,您可以指定这些条件的组合方式。如需了解详情,请参阅具有多个条件的政策

    2. 点击下一步以前进到通知部分。

    3. 要在突发事件创建时获得通知,请将通知渠道添加到提醒政策。您可以添加多个通知渠道。 如需了解如何选择通知渠道,请参阅通知选项

      要添加通知渠道,请点击通知渠道。在对话框中,从菜单中选择一个或多个通知渠道,然后点击确定

      显示“刷新”和“管理渠道”按钮的通知对话框。

      如果您要添加的通知渠道未列出,请点击管理通知渠道。系统会将您转到新的浏览器标签页中的通知渠道页面。在此页面上,您可以更新已配置的通知渠道。完成更新后,返回原始标签页,点击刷新 ,然后选择要添加到提醒政策中的通知渠道。如需了解详情,请参阅按需创建渠道

    4. (可选)如果您希望在事件打开和关闭时都收到通知,请选中在事件关闭时通知。默认情况下,仅在事件打开时发送通知。

      显示突发事件关闭通知按钮。

    5. (可选)如果显示突发事件自动关闭时长字段,请将该字段的值设置为观察结果停止到达时 Monitoring 关闭突发事件之前应等待的时长。此字段的默认值为 7 天。

      例如,假设您有一项包含指标阈值条件的提醒,用于监控虚拟机 (VM)。如果您在突发事件打开时关闭虚拟机,则默认情况下,Monitoring 会等待 7 天再关闭突发事件。

    6. 点击下一步以前进到文档部分。

    7. 点击名称,然后输入政策名称。此名称包含在通知中,并显示在政策页面中。

    8. (可选)指定要包含在通知中的文档。如需设置文档格式,您可以使用 Markdown。如需从政策本身提取信息来定制文档内容,您可以使用变量。如需详细了解如何设置此字段格式并定制其内容,请参阅在文档模板中使用 Markdown 和变量

      例如,文档可能包含诸如 Addressing High CPU Usage 之类的标题以及能够标识项目的详细信息:

      ## Addressing High CPU Usage
      
      This note contains information about high CPU Usage.
      
      You can include variables in the documentation. For example:
      
      This alert originated from the project ${project}, using
      the variable $${project}.
      

      该值仅在通知中替换变量。预览 Markdown 窗格以及 Cloud Console 中显示文档的其他位置仅反映 Markdown 格式:

      使用 markdown 撰写文档备注的示例。

      您还可以添加渠道专用标记来控制通知。 如需了解详情,请参阅使用渠道控制

  4. 点击保存

预览界面

如需创建提醒政策,请执行以下操作:

  1. 在 Cloud Console 中,选择 Monitoring

    转到 Monitoring

  2. 在 Cloud Monitoring 导航窗格中,选择提醒,然后点击创建政策

  3. 创建提醒政策页面的新建条件步骤中,配置提醒政策条件

  4. (可选)要创建多条件提醒政策,请执行以下操作:

    1. 对于每个其他条件,请点击添加条件,然后配置该条件。
    2. 添加所有条件后,请在多条件触发器步骤中选择这些条件的组合方式。如需了解详情,请参阅具有多个条件的政策
  5. (可选)如需在满足提醒政策条件时收到通知,请在通知和名称步骤中启用使用通知渠道:之后,执行以下操作:

    1. 点击通知渠道文字即可激活菜单。从该菜单中选择一个或多个通知渠道。

      如果您要添加的通知渠道未列出,请参阅按需创建渠道

      如需了解如何选择通知渠道,请参阅通知选项

    2. 要在突发事件解决后收到通知,请选择突发事件关闭时通知

      默认情况下,如果您使用 Google Cloud Console 创建提醒政策,则仅在创建突发事件时发送通知。

    您可以通过修改政策来更改提醒政策的通知渠道。

  6. (可选)如果显示突发事件自动关闭时长字段,请将该字段的值设置为观察结果停止到达时 Monitoring 关闭突发事件之前应等待的时长。此字段的默认值为 7 天。

    例如,如果您有一项包含指标阈值条件的提醒,用于监控虚拟机 (VM)。如果您在突发事件打开时关闭虚拟机,则默认情况下,Monitoring 会等待 7 天再关闭突发事件。

  7. (可选)要在通知中添加自定义文档,请将相应内容添加到通知和名称步骤的文档部分。

    如需设置文档格式,您可以使用 Markdown。如需从政策本身提取信息来定制文档内容,您可以使用变量。 例如,文档可能包含诸如 Addressing High CPU Usage 之类的标题以及能够标识项目的详细信息:

    ## Addressing High CPU Usage
    
    This note contains information about high CPU Usage.
    
    You can include variables in the documentation. For example:
    
    This alert originated from the project ${project}, using
    the variable $${project}.
    

    创建通知后,Monitoring 会将变量替换为其值。这些值仅替换通知中的变量。预览窗格和 Cloud Console 中其他位置仅显示 Markdown 格式:

    使用 markdown 撰写文档备注的示例。

    如需了解 Markdown 和变量,请参阅在文档模板中使用 Markdown 和变量

    如需了解如何添加渠道专用标记来控制通知,请参阅使用渠道控制

    您可以通过修改政策来更改提醒政策的文档。

  8. (可选)如需将提醒政策的名称从新提醒更改为更有意义的内容,请转到通知和名称步骤并更新政策名称。

  9. 点击创建

配置条件

本部分介绍如何使用预览版界面配置条件。如果您使用的是旧版接口,请参阅指定条件

如需配置条件,请执行以下操作:

  1. 选择要指定要监控的时间序列的方式:

    • 基本模式

      如果您要配置用于监控特定资源指标并且不想使用 MQL 的条件,请使用基本模式。

      如果选择基本模式,则可以将所选项转换为 MQL 或使用直接过滤模式。

    • MQL 模式

      如果您想使用 MQL 描述条件或监控指标的比率,请使用 MQL 模式。

      如果使用 MQL 模式,则无法将查询转换为基本模式或直接过滤模式。

    • 直接过滤模式

      如果您想要监控以下任意一项,请使用直接过滤模式:

      • 服务等级目标 (SLO)。
      • 在虚拟机 (VM) 上运行的进程数。
      • 您尚无数据的自定义指标。

      如果使用直接过滤模式,则无法将查询转换为基本模式或 MQL 查询。

  2. (可选)如果您使用基本模式或直接过滤模式,则使用转换数据字段指定如何处理和组合选定的时间序列。

  3. 配置条件触发器

基本模式

如需使用基本模式选择要监控的时间序列,请执行以下操作:

  1. 点击创建提醒政策页面中的选择指标,滚动到资源,然后浏览菜单。选择指标后,点击应用

    要将菜单限制为包含特定字符串的指标,请在过滤栏上输入该字符串。例如,如果您输入 CPU,则仅显示名称包含 CPU 的指标。系统会执行不区分大小写的测试,以确定指标是否列在菜单中。

    如需更改所选指标或资源,请展开选择指标菜单,然后点击重置或浏览菜单以做出不同的选择。

  2. (可选)如需仅监控图表中显示的部分时间序列,请添加过滤条件。在过滤条件对话框中,使用过滤条件字段来选择用于过滤的标签。例如,您可以按资源组、名称、资源标签、区域和指标标签过滤。

    例如,过滤条件 zone =~ ^us.*.a$ 使用正则表达式匹配地区名称以 us 开头且以 a 结尾的所有时间序列数据。如需了解详情,请参阅过滤所选数据

如果您在做出选择后点击工具栏中的 MQL,则查询编辑器会打开并显示包含您的选择的查询。如果您修改现有查询,然后返回基本模式,则系统会舍弃您的修改。

MQL 模式

如需使用 MQL 配置条件,请执行以下操作:

  1. 点击“创建自定义提醒”工具栏中的 MQL,然后输入条件查询。

    您的查询必须以以下操作之一结尾:

    如需了解详情,请参阅使用 MQL 的提醒政策

  2. 点击下一步配置条件触发器

如需返回基本模式,请点击创建自定义提醒页面工具栏中的基本查询

如果您创建了查询或修改现有查询,然后返回基本模式,则修改将被舍弃。

直接过滤模式

要使用直接过滤模式选择要监控的时间序列,请执行以下操作:

  1. 点击选择指标部分的标题中,然后在提示中选择直接过滤模式

  2. 输入 Monitoring 过滤条件。

    例如,如需计算名称包含 nginx 的 Compute Engine 虚拟机实例上运行的进程数,请输入以下命令:

    select_process_count("monitoring.regex.full_match(\".*nginx.*\")")
    resource.type="gce_instance"
    

    如需语法信息,请参阅以下资源:

要返回到基本模式,请点击 ? 选择指标部分标题,然后选择基本模式

如果您使用基本模式进行选择,然后输入直接过滤模式,则可以查看监控过滤条件。如果您不修改监控过滤条件,则可以返回基本模式。如果您在创建或修改监控过滤条件后返回基本模式,您所做的更改可能不会保留。

如果您使用直接过滤器模式选择要监控的时间序列,然后切换到 MQL 模式,则系统不会保留您所做的更改。

转换数据

本部分仅适用于基本模式和直接过滤模式。此政策不适用于 MQL 模式。

如需配置每个时间序列的校准方式以及时间序列的组合方式,请执行以下操作:

  1. (可选)如需更改时间序列中的点与固定时间间隔的校准方式,请在以下部分中设置滚动窗口滚动窗口函数转换数据部分。

    这些字段用于指定窗口中记录的点的组合方式。例如,如果窗口为 15 分钟,而窗口函数为 max,则校准的点是最近 15 分钟内记录的所有样本的最大值。

    如需了解详情,请参阅校准时间序列

  2. (可选)如需将时间序列组合在一起,请在跨时间序列部分中,点击 展开,然后完成对话框。默认情况下,系统不会合并时间序列。

    如需创建单个时间序列,请执行以下操作:

    1. 时间序列聚合字段设置为 none 以外的值。例如,如果您选择 mean,则显示的时间序列中的每个点都是各个时间序列的平均值。

    2. 确保时间序列分组依据字段为空。

    如需对时间序列进行分组,请执行以下操作:

    1. 时间序列聚合字段设置为 none 以外的值。

      例如,如果按 zone 对时间序列进行分组,然后将聚合字段设置为 mean,则每个地区都有一个时间序列。

    2. 时间序列分组依据字段中,选择要分组的一个或多个标签。

    如果您在完成上述步骤后显示了多个时间序列,请使用 Secondary data transform 字段将这些时间序列合并为单个时间序列。

    如需了解详情,请参阅组合时间序列

条件触发器

如需配置满足条件的时间,请转到配置提醒触发器页面,然后执行以下操作:

  1. 如果显示了条件类型字段,请选择条件类型

    • 如需在指标数据到达时收到通知,请选择指标缺失

    • 要根据指标的值接收通知,请选择阈值

  2. 要指定单个时间序列在满足条件时的影响,请从提醒触发器菜单中选择一个值。此菜单允许您指定时间序列的子集,必须满足该条件的满足条件。

  3. 填写特定于条件的字段:

    • 指标缺失条件

      使用此时间没有数据的情况下触发字段,输入提醒政策要通知您没有收到指标数据的时间。

    • Threshold 条件

      使用阈值位置阈值超过阈值的时间字段。例如,如果您将这些值设置为超过阈值0.35 minutes,则如果 5-分钟间隔大于 0.3。

      使用重新测试窗口输入测量结果在满足事件条件之前必须满足多长时间才能触发突发事件。如果您选择最新值,则一次衡量可能会导致出现通知。如需查看概念信息和示例,请参阅校准时间段和时长

提醒政策的 JSON

要查看或下载提醒政策的 JSON 表示法,请执行以下操作:

  1. 在 Cloud Console 中,选择 Monitoring

    转到 Monitoring

  2. 选择提醒,找到要查看的政策,然后打开政策详情页面。

  3. 执行下列其中一项操作:

    • 如需将 JSON 下载到本地系统,请点击 JSON

    • 要查看 JSON,请确保您使用的是预览版界面,点击 修改,然后点击 查看代码

      如果查看代码未显示,则表示您正在使用旧版界面,或者选项隐藏在 更多选项

向信息中心添加提醒政策

当提醒政策包含一个条件时,您可以在自定义信息中心上显示该提醒政策的摘要。该摘要包括提醒政策监控的时间序列、阈值和未结突发事件数量。

如需在自定义信息中心上显示提醒政策的摘要,请执行以下操作:

  1. 在 Cloud Console 中,选择 Monitoring

    转到 Monitoring

  2. 选择信息中心,然后打开要修改的自定义信息中心。

  3. 如果未显示 修改,请点击 查看,然后选择切换到修改模式

  4. 从微件库中选择提醒图表,或点击添加图表,然后从菜单中选择提醒图表

  5. 提醒图表的配置窗格中,使用提醒政策菜单选择提醒政策。只能从提醒政策菜单中选择单一条件提醒政策。

以下屏幕截图展示了提醒图表:

提醒图表示例。

在此示例中,提醒政策会监控两个不同的虚拟机的 CPU 使用情况。虚线红线显示条件阈值,设置为 50%。带有 No incidents 标签的绿色卡片表示提醒政策没有未结突发事件。如果将指针放在显示待处理事件数量的芯片上,则系统会打开一个对话框,其中包含底层提醒政策。

如需了解详情,请参阅使用信息中心和图表

管理政策

要列出所有提醒政策,请执行以下操作:

  1. 在 Cloud Console 中,选择 Monitoring

    转到 Monitoring

  2. 选择提醒

  3. 部分政策列表显示在 Policies(政策)窗格中。 如需查看所有政策并启用过滤功能,请点击查看所有政策

要查看提醒政策的详细信息,请点击其名称。

要限制列出的提醒政策,请添加过滤条件。 每个过滤条件都由名称和值组成。 您可以将该值设置为与政策名称完全匹配或部分匹配。过滤条件不会执行区分大小写的比较。如果您有多个过滤条件,则除非您插入 OR 过滤条件,否则逻辑 AND 会加入过滤条件。以下屏幕截图列出了与 testMy Uptime Check Alert Policy 匹配的所有提醒政策:

包含过滤条件的提醒概览示例。

政策页面中,您可以修改、删除、复制、启用或停用提醒政策:

  • 要修改或复制政策,请点击更多选项 ,并选择相应选项。修改和复制政策与创建提醒政策的过程类似。您可以更改字段中的值,有时还可以删除它们。完成后,点击保存

  • 如需删除政策,请点击更多选项 ,然后选择删除。在确认对话框中,选择删除

  • 要更改提醒政策的启用状态,请点击标题已启用下的切换按钮。

如果您选择了提醒政策,则系统会显示政策详细信息。 例如,以下屏幕截图展示了名称为 Test staging 的提醒政策的详细信息:

提醒政策详情页面示例。

通知部分会列出您是否已配置政策,以便在突发事件关闭时收到通知。突发事件发生时,您始终会收到通知。如需更改通知行为,请修改提醒政策。

您可以在政策详情页面中修改、删除、复制、启用或停用提醒政策。例如,要停用当前启用的提醒政策,请点击已启用,然后选择关闭。同样,要启用当前已停用的政策,请点击已停用