管理基于指标的提醒政策

本文档说明了如何使用 Google Cloud Console 根据指标创建和管理提醒政策。此内容不适用于基于日志的提醒政策。如需了解基于日志的提醒政策(该政策在特定消息显示在日志中时通知您),请参阅监控日志

提醒政策描述了您要监控的一组条件。这些条件可能与应用的运行状况、系统指标的值或资源消耗有关。例如,您可能想要监控正常运行时间检查或监控 Cloud Monitoring API 使用情况的政策。通过提醒政策,您还可以指定在满足政策条件时接收通知的方式,以及要包含在该通知中的文档。

您还可以使用 Cloud Monitoring API 创建和管理提醒政策。如需详细了解此方法,请参阅通过 API 管理提醒政策。要查看以 JSON 表示的政策,请参阅示例政策

准备工作

创建提醒政策前,您应该熟悉提醒政策所用的一般概念和术语。如需了解政策的各个组成部分、突发事件的概念以及价格和限制,请参阅提醒简介

创建提醒政策

Cloud Monitoring 将刷新用于创建提醒政策的接口。本文档介绍旧版界面和预览界面。如需在使用预览界面时返回旧版界面,请点击返回旧版界面

旧版接口

如需创建提醒政策,请执行以下操作:

  1. 在 Cloud Console 中,选择 Monitoring 或点击以下按钮:
    转到 Monitoring

  2. 选择提醒

  3. 点击创建政策以查看创建提醒政策页面:

    此时将显示“创建提醒政策”对话框。

    1. 点击添加条件并完成对话框。如需了解条件中的字段,请参阅指定条件

      条件描述了受监控的资源、该资源的指标以及何时满足条件。一个提醒政策必须至少包含 1 个条件,但提醒政策最多可以包含 6 个条件。当提醒政策仅有 1 个条件并且满足该条件时,系统就会创建突发事件。当提醒政策具有多个条件时,您可以指定这些条件的组合方式。如需了解详情,请参阅具有多个条件的政策

    2. 点击下一步以前进到通知部分。

    3. 要在突发事件创建时获得通知,请将通知渠道添加到提醒政策。您可以添加多个通知渠道。 如需了解如何选择通知渠道,请参阅通知选项

      要添加通知渠道,请点击通知渠道。在对话框中,从菜单中选择一个或多个通知渠道,然后点击确定

      显示“刷新”和“管理渠道”按钮的通知对话框。

      如需将通知渠道添加到渠道列表中,请点击管理通知渠道。系统会将您带到新浏览器标签页中的通知渠道页面。在此页面上,您可以更新已配置的通知渠道。完成更新后,返回原始标签页,点击刷新 ,然后选择要添加到提醒政策中的通知渠道。如需了解详情,请参阅按需创建渠道

    4. (可选)如需在突发事件开始和关闭时接收通知,请选择在突发事件关闭时通知。默认情况下,仅在事件打开时发送通知。

      显示突发事件关闭通知按钮。

    5. (可选)如果显示 Incident autocloseduration 字段,请将此字段的值设为 Monitoring 在停止观察时关闭突发事件之前应该等待的时长。此字段的默认值为 7 天自动关闭时长下限为 30 分钟。

      例如,假设您有一项包含指标阈值条件的提醒,用于监控虚拟机 (VM)。如果您在突发事件打开时关闭虚拟机,则默认情况下,Monitoring 会等待 7 天再关闭突发事件。

    6. 点击下一步以前进到文档部分。

    7. 点击名称,然后输入政策名称。此名称包含在通知中,并显示在政策页面中。

    8. (可选)指定要包含在通知中的文档。如需设置文档格式,您可以使用 Markdown。如需从政策本身提取信息来定制文档内容,您可以使用变量。如需详细了解如何设置此字段格式并定制其内容,请参阅在文档模板中使用 Markdown 和变量

      例如,文档可能包含诸如 Addressing High CPU Usage 之类的标题以及能够标识项目的详细信息:

      ## Addressing High CPU Usage
      
      This note contains information about high CPU Usage.
      
      You can include variables in the documentation. For example:
      
      This alert originated from the project ${project}, using
      the variable $${project}.
      

      该值仅在通知中替换变量。Preview Markdown 窗格以及显示文档的 Cloud Console 的其他位置仅反映 Markdown 格式:

      使用 markdown 撰写文档备注的示例。

      您还可以添加渠道专用标记来控制通知。 如需了解详情,请参阅使用渠道控制

  4. 点击保存

预览界面

如需创建提醒政策,请执行以下操作:

  1. 在 Cloud Console 中,选择 Monitoring 或点击以下按钮:
    转到 Monitoring

  2. 在 Cloud Monitoring 导航窗格中,选择提醒,然后点击创建政策

  3. 创建提醒政策页面上的新建条件步骤中,配置提醒政策条件

  4. (可选)要创建多条件提醒政策,请执行以下操作:

    1. 对于每个其他条件,请点击添加条件,然后配置该条件。
    2. 添加所有条件后,请在多条件触发器步骤中选择这些条件的组合方式。如需了解详情,请参阅具有多个条件的政策
  5. (可选)如需在提醒政策的条件得到通知时执行以下操作,请执行以下操作:

    1. 确保在通知和名称步骤中启用了使用通知渠道
    2. 点击文本通知渠道,然后从菜单中选择一个或多个通知渠道。

      如需了解如何将通知渠道添加到已配置渠道的列表,请参阅按需创建渠道

      如需了解如何选择通知渠道,请参阅通知选项

    3. 如需在突发事件关闭时收到通知,请选择 当突发事件关闭时通知

      默认情况下,当您使用 Google Cloud Console 创建提醒政策时,只有在创建突发事件时才会发送通知。

    您可以通过修改政策来更改提醒政策的通知渠道。

  6. (可选)如果显示 Incident autocloseduration 字段,请将此字段的值更新为 Monitoring 在停止观察时关闭突发事件之前应该等待的时长。此字段的默认值为 7 天

    例如,假设某项提醒政策设有用于监控虚拟机 (VM) 的指标阈值条件。如果您在突发事件打开时关闭虚拟机,则默认情况下,Monitoring 会等待 7 天再关闭突发事件。

  7. (可选)如需在通知中添加自定义文档,请将相应内容添加到通知和名称步骤的文档部分中。

    如需设置文档格式,您可以使用 Markdown。如需从政策本身提取信息来定制文档内容,您可以使用变量。 例如,文档可能包含诸如 Addressing High CPU Usage 之类的标题以及能够标识项目的详细信息:

    ## Addressing High CPU Usage
    
    This note contains information about high CPU Usage.
    
    You can include variables in the documentation. For example:
    
    This alert originated from the project ${project}, using
    the variable $${project}.
    

    创建通知后,Monitoring 会将变量替换为其值。这些值仅替换通知中的变量。预览窗格以及 Cloud Console 中其他位置只会显示 Markdown 格式:

    使用 markdown 撰写文档备注的示例。

    如需了解 Markdown 和变量,请参阅在文档模板中使用 Markdown 和变量

    如需了解如何添加渠道专用标记来控制通知,请参阅使用渠道控制

    您可以通过修改政策来更改提醒政策的文档。

  8. (可选)如需将提醒政策的名称从新提醒更改为更有意义的内容,请转到通知和名称步骤并更新政策名称。

  9. 点击创建

配置条件

本部分介绍如何使用预览版界面配置条件。如需了解如何使用旧版接口配置条件,请参阅指定条件

如需配置条件,请执行以下操作:

  1. 选择要指定要监控的时间序列的方式:

    • 基本模式

      如果您要配置用于监控特定资源指标并且不想使用 MQL 的条件,请使用基本模式。

      您可以将基本模式选择转换为 MQL 或直接过滤模式使用的格式。

      基本模式是默认配置方法。

    • MQL 模式

      如果您想使用 MQL 描述条件或想要监控指标的比率,请使用 MQL 模式。

      您无法将 MQL 查询转换为基本模式或直接过滤模式使用的格式。

    • 直接过滤模式

      如果您想要监控以下任意一项,请使用直接过滤模式:

      • 服务等级目标 (SLO)。
      • 在虚拟机 (VM) 上运行的进程数。
      • 您尚无数据的自定义指标。

      您不能将直接过滤模式查询转换为基本模式或 MQL 使用的格式。

  2. (可选)使用基本模式或直接过滤模式时,您可以使用转换数据字段指定如何处理所选时间序列。系统会为数据转换选择默认设置。

  3. 配置条件触发器

基本模式

如需使用基本模式选择要监控的时间序列,请执行以下操作:

  1. 点击创建提醒政策页面中的选择指标,滚动到资源,然后浏览菜单。选择指标后,点击应用

    要将菜单限制为包含特定字符串的指标,请在过滤栏上输入该字符串。例如,如需限制菜单中仅显示名称中包含 CPU 的指标,请在过滤条件栏中输入 CPU。系统会执行不区分大小写的测试,以确定菜单中是否会列出指标。

    如需更改所选指标或资源,请展开选择指标菜单,然后点击重置或浏览菜单以做出不同的选择。

  2. (可选)如需仅监控图表中显示的部分时间序列,请添加过滤条件。在过滤条件对话框中,使用过滤条件字段来选择用于过滤的标签。例如,您可以按资源组、名称、资源标签、区域和指标标签过滤。

    例如,过滤条件 zone =~ ^us.*.a$ 使用正则表达式匹配地区名称以 us 开头且以 a 结尾的所有时间序列数据。如需了解详情,请参阅过滤所选数据

如需打开查询编辑器并预先填充您的选择,请点击 MQL。当您返回到基本模式时,系统会舍弃您所做的任何修改。

下一步:使用 Transform 数据字段指定如何处理和组合所选时间序列。

MQL 模式

如需使用 MQL 配置条件,请执行以下操作:

  1. 点击创建自定义提醒工具栏中的 MQL,然后输入符合该条件的查询。

    您的查询必须以以下操作之一结尾:

    如需了解详情,请参阅使用 MQL 的提醒政策

  2. 点击下一步配置条件触发器

如需返回到基本模式,请点击创建自定义提醒页面工具栏中的基本查询。当您返回到基本模式时,系统会舍弃您所做的所有修改。

下一步:配置条件触发器

直接过滤模式

要使用直接过滤模式选择要监控的时间序列,请执行以下操作:

  1. 点击(在选择指标部分的标题中),然后选择提示中的直接过滤模式

  2. 输入 Monitoring 过滤条件。

    例如,如需计算名称包含 nginx 的 Compute Engine 虚拟机实例上运行的进程数,请输入以下命令:

    select_process_count("monitoring.regex.full_match(\".*nginx.*\")")
    resource.type="gce_instance"
    

    如需语法信息,请参阅以下资源:

要返回到基本模式,请点击 ? (在指标部分的标题中),然后选择基本模式

切换到 MQL 模式后,系统会舍弃您在直接过滤模式下所做的更改。如果您在创建或修改监控过滤条件后返回基本模式,您所做的更改可能不会保留。

下一步:使用 Transform 数据字段指定如何处理和组合所选时间序列。

转换数据

本部分仅适用于基本模式和直接过滤模式。此政策不适用于 MQL 模式。

如需配置每个时间序列的校准方式以及时间序列的组合方式,请执行以下操作:

  1. (可选)如需更改时序中的点与固定时间间隔的校准方式,请在转换数据部分中设置滚动窗口滚动窗口函数

    这些字段用于指定窗口中记录的点的组合方式。例如,当窗口为 15 分钟且窗口函数为 max 时,对齐点是最近 15 分钟记录的所有样本的最大值。

    如需了解详情,请参阅校准时间序列

  2. (可选)如需将时序组合在一起,请在跨时序 (Across time series) 部分中,点击 显示更多,然后完成对话框。默认情况下,系统不会合并时间序列。

    如需创建单个时间序列,请执行以下操作:

    1. 时间序列聚合字段设置为 none 以外的值。例如,当您选择 mean 时,所显示时间序列中的每个点都是每个时间序列中的点的平均值。

    2. 确保时间序列分组依据字段为空。

    如需对时间序列进行分组,请执行以下操作:

    1. 时间序列聚合字段设置为 none 以外的值。

      例如,如果按 zone 对时间序列进行分组,然后将聚合字段设置为 mean,则每个地区都有一个时间序列。

    2. 时间序列分组依据字段中,选择要分组的一个或多个标签。

    如果您希望在完成上述步骤后显示一个时序并显示多个时序,请使用次要数据转换字段组合这些时序。

    如需了解详情,请参阅组合时间序列

下一步:配置条件触发器

条件触发器

如需配置满足条件的时间,请转到配置提醒触发器页面,然后执行以下操作:

  1. 如果显示了条件类型字段,请选择条件类型

    • 如需在指标数据到达时收到通知,请选择指标缺失

    • 要根据指标的值接收通知,请选择阈值

  2. 要指定单个时间序列在满足条件时的影响,请从提醒触发器菜单中选择一个值。此菜单允许您指定时间序列的子集,必须满足该条件的满足条件。

  3. 填写条件专用字段:

    • 指标缺失条件:

      使用触发器缺失时间字段指定提醒政策等待多长时间才能收到没有任何指标数据的通知。

    • Threshold 条件:

      • 使用阈值位置阈值超过阈值的时间字段,输入指标值如何满足条件。例如,如果将这些值设置为超过阈值0.35 minutes,则时序满足 5 分钟间隔内每个样本大于 0.3 的条件。

      • (可选)如需选择测量结果满足条件条件之前必须持续的时间,请点击高级选项,然后从重新测试窗口菜单中选择。

        如果您选择不重新测试,则单个测量结果可能会引发通知。如需查看概念信息和示例,请参阅校准时间段和时长

      • (可选)如需选择 Monitoring 如何评估时间序列数据何时停止到达的情况,请点击高级选项,然后从评估缺失数据菜单中进行选择。

        Cloud Console
        “缺少数据评估”字段
        总结 详情
        缺少数据 未结突发事件保持未解决状态。
        系统不会打开新的突发事件。

        对于满足的条件,如果数据不再到达,则继续满足条件。如果突发事件针对此条件未解决,则突发事件将保持未解决状态。如果突发事件处于打开状态且未收到任何数据,自动关闭计时器将在延迟至少 15 分钟后启动。如果计时器到期,则此突发事件会关闭。

        对于未满足的条件,当数据停止到达时,不再继续满足条件。

        数据点缺失,被视为违反政策条件 未结突发事件保持未解决状态。
        您可以创建新突发事件。

        对于满足的条件,如果数据不再到达,则继续满足条件。如果突发事件针对此条件未解决,则突发事件将保持未解决状态。如果突发事件处于未结状态,且自动关闭时长为 24 小时,尚无数据到达,则突发事件将被关闭。

        对于未满足的条件,此设置会导致指标阈值条件的行为类似于指标缺失条件。 如果数据未在重新测试窗口指定的时间内到达,则评估相应条件。对于具有一个条件的提醒政策,满足该条件会导致打开突发事件。

        缺少数据点,且数据点没有违反政策条件 未结突发事件已关闭。
        系统不会打开新的突发事件。

        对于满足的条件,当数据停止到达时,不再满足条件。如果满足此条件的突发事件创建一个突发事件,该突发事件将被关闭。

        对于未满足的条件,当数据停止到达时,不再继续满足条件。

  4. (可选)更新条件名称。

查看提醒政策

  1. 在 Cloud Console 中,选择 Monitoring 或点击以下按钮:
    转到 Monitoring

  2. 在导航窗格中,选择 提醒

  3. 要查看所有政策并启用过滤,请点击政策窗格中的查看所有政策

  4. 找到要查看的政策,然后选择该政策。

例如,以下屏幕截图展示了名为 Test staging 的提醒政策的详细信息:

提醒政策详情页面示例。

如上图所示,详情页面提供了有关提醒政策的信息:

  • 如需查看通过政策创建的突发事件,请参阅突发事件部分。

  • 如需查看已配置的通知渠道,请参阅通知渠道部分。

  • 如需查看您指定要包含在通知中的其他信息,请参阅文档部分。

  • 要查看用户定义的标签,请查看标签部分。如需查看有关如何使用标签管理提醒的示例,请参阅向提醒政策添加严重级别

  • 如需修改、复制、删除、下载 JSON 表示法或更改政策的启用状态,请使用工具栏。例如,如需停用已启用的提醒政策,请点击 Enabled 并选择 Disable

查看 JSON 格式的提醒政策

提醒政策的 JSON 表示法展示了政策设置与 Cloud Monitoring API 中的字段之间的关联方式。要查看或下载提醒政策的 JSON 表示法,请执行以下操作:

  1. 在 Cloud Console 中,选择 Monitoring 或点击以下按钮:
    转到 Monitoring
  2. 在导航窗格中,选择 提醒
  3. 找到要查看的政策,然后点击政策名称以打开政策详情页面。

  4. 执行下列其中一项操作:

    • 如需将 JSON 下载到本地系统,请点击 JSON

    • 如需查看 JSON,请确保您使用的是预览版界面,点击 修改,然后点击 查看代码

      如果未显示 查看代码,则表示您使用的是旧版界面,或者选项隐藏在 更多选项下。

向信息中心添加提醒政策

当提醒政策包含一个条件时,您可以在自定义信息中心上显示该提醒政策的摘要。该摘要包括提醒政策监控的时间序列、阈值和未结突发事件数量。

如需在自定义信息中心上显示提醒政策的摘要,请执行以下操作:

  1. 在 Cloud Console 中,选择 Monitoring 或点击以下按钮:
    转到 Monitoring
  2. 在导航窗格中,选择 信息中心,然后选择要查看或修改的信息中心。
  3. 如果显示 Edit 信息中心按钮,请点击该按钮。

  4. 从微件库中选择提醒图表,或点击添加图表,然后从菜单中选择提醒图表

  5. 提醒图表的配置窗格中,使用提醒政策菜单选择提醒政策。只能从提醒政策菜单中选择单一条件提醒政策。

以下屏幕截图展示了提醒图表:

提醒图表示例。

在此示例中,提醒政策会监控两个不同的虚拟机的 CPU 使用情况。虚线显示条件阈值,设置为 50%。带有 No incidents 标签的绿色卡片表示提醒政策没有未结突发事件。如果将指针放在显示待处理事件数量的芯片上,则系统会打开一个对话框,其中包含底层提醒政策。

如需了解详情,请参阅使用信息中心和图表

管理政策

要列出所有提醒政策,请执行以下操作:

  1. 在 Cloud Console 中,选择 Monitoring 或点击以下按钮:
    转到 Monitoring

  2. 在导航窗格中,选择 提醒

    Alerting 页面显示列出了摘要信息、突发事件和提醒政策的窗格。

  3. 点击政策窗格中的查看所有政策

    政策页面列出了所有政策,包括过滤器栏以及每个政策以及用于修改、复制或删除政策的选项:

    • 如需限制列出的提醒政策,请执行以下操作之一:

      • 在过滤条件栏中输入名称。例如,输入 Example 可显示名称中带有字符串 Example 的政策。不区分大小写的比较测试用于确定是否列出了某个过滤条件。
      • 点击过滤政策,选择过滤条件属性,然后输入一个值或从菜单中选择一个值。

      当您有多个过滤条件时,逻辑逻辑 AND 会联接这些过滤条件,除非您插入 OR 过滤条件。以下屏幕截图列出了与 testMy Uptime Check Alert Policy 匹配的所有提醒政策:

      包含过滤条件的提醒概览示例。

    • 要修改或复制政策,请点击更多选项 ,并选择相应选项。修改和复制政策与创建提醒政策的过程类似。您可以更改字段中的值,有时删除它们。 完成后,点击保存政策

    • 要删除政策,请点击更多选项,然后选择删除。在确认对话框中,选择删除