创建指标缺失提醒政策

本文档介绍如何使用 Google Cloud 控制台创建提醒 政策,当受到监控的时间 系列图书在特定时间段内没有任何数据。

指标缺失条件至少需要一次成功测量 — 检索数据的 — 或 。这段时间称为触发器缺失时间。通过 可配置的触发器缺失时间最长为 23.5 小时。

例如,假设您将触发器缺失时间设置为指标缺失情况 政策设置为 30 分钟。如果某个子系统 写入指标数据从未写入数据点。子系统需要输出至少一个数据点,然后在 30 分钟内不再输出更多数据点。

此内容不适用于基于日志的提醒政策。了解基于日志的提醒政策,这些政策会在发生以下情况时通知您: 特定消息出现在您的日志中,请参阅 监控日志

本文档并未介绍以下内容:

准备工作

  1. 如需获取使用 Google Cloud 控制台创建和修改提醒政策所需的权限, 请让管理员向您授予 项目的 Monitoring Editor (roles/monitoring.editor) IAM 角色。 如需详细了解如何授予角色,请参阅管理访问权限

    您也可以通过自定义角色或其他预定义角色来获取所需的权限。

    如需详细了解 Cloud Monitoring 角色, 请参阅使用 Identity and Access Management 控制访问权限

  2. 确保您熟悉提醒政策的一般概念。 有关这些主题的信息,请参阅 提醒概览

  3. 配置您要用来接收任何通知的通知渠道 通知。为实现冗余,我们建议您创建 多种类型的通知渠道。如需了解详情,请参阅 创建和管理通知渠道

创建提醒政策

创建发送通知的提醒政策 当受监控的时序没有特定触发器缺失时间的数据时, 执行以下操作:

  1. 在 Google Cloud 控制台中,转到 提醒页面:

    进入提醒

    如果您使用搜索栏查找此页面,请选择子标题为监控的结果。

  2. 选择创建政策
  3. 选择要监控的时序:

    1. 点击选择指标,然后浏览菜单以选择 资源类型和指标类型,然后点击应用

      选择指标菜单包含可帮助您查找 可用的指标类型:

      • 要查找特定的指标类型,请使用 过滤栏。 例如,如果您输入 util,则将菜单限制为 显示包含 util 的条目。系统将在条目通过 不区分大小写的“contains”测试。

      您可以监控任何内置指标或任何用户定义的 指标。

    2. 可选:如需监控与 指标和资源类型 点击添加过滤条件。在“过滤条件”对话框中,按以下条件选择标签: 要过滤的对象、比较器和过滤条件值。 例如,过滤条件 zone =~ ^us.*.a$ 使用正则表达式来 匹配可用区名称以 us 开头、以 us 结尾的所有时间序列数据 与a共享。如需了解详情,请参阅 过滤所选时序

    3. 可选:如需更改时序中点的对齐方式,请执行以下操作: 在转换数据部分中,设置滚动窗口滚动窗口函数字段。

      这些字段指定如何记录窗口中记录的点 总和。例如,假设时长为 15 分钟, 窗口函数为 max。对齐点是 得分。 如需了解详情,请参阅 校准:系列内正则化

    4. 可选:如需减少 时序由政策监控,或者您希望仅监控 时序集合。例如,您不必监控 您可能希望计算每个虚拟机实例的 CPU 利用率, 某个可用区中所有虚拟机的 CPU 利用率平均值,然后计算 监控该平均值。默认情况下 时序不会合并。有关一般信息,请参阅 归约:合并时序

      如需组合所有时序,请执行以下操作:

      1. 跨时序部分中, 点击 展开
      2. 时间序列聚合字段的值设置为 none.例如,要显示 时序,选择 mean
      3. 确保时间序列分组依据字段为空。

      如需按标签值对时序进行组合或分组,请执行以下操作:

      1. 跨时序部分中, 点击 展开
      2. 时间序列聚合字段的值设置为 none.
      3. 时序分组依据字段中,选择标签 作为分组依据

      例如,如果您按 zone 标签进行分组,然后将 汇总字段的值为 mean,则图表会显示 每个有数据的区域对应一个时序。通过 特定可用区的时序是所有时序的平均值 该可用区

    5. 点击下一步

  4. 配置条件触发器:

    1. 选择指标缺失作为条件类型。
    2. 提醒触发器菜单选择一个值。通过此菜单,您可以 指定时序的子集,其中不得包含数据 才能满足条件
    3. 指定指标数据必须缺失多长时间才会发出提醒 触发器缺失时间字段通知您。
    4. 点击下一步
  5. 可选:创建包含多个条件的提醒政策。

    大多数政策会监控单个指标类型,例如,一项政策可能 监控写入虚拟机实例的字节数。随时 如需监控多种指标类型,请创建包含多个条件的政策。 每个条件会监控一种指标类型。创建条件后 您可以指定条件的组合方式有关详情,请参阅 包含多个条件的政策

    如需创建具有多个条件的提醒政策,请执行以下操作:

    1. 对于其他每个条件,请点击添加提醒条件,然后 配置该条件。
    2. 点击下一步,然后配置条件的组合方式。
    3. 点击下一步前往通知和文档 设置。
  6. 配置通知:

    1. 展开通知和名称菜单,然后选择您的通知 渠道。为实现冗余,我们建议您添加到 多种类型的通知渠道。 如需了解详情,请参阅管理通知渠道

    2. 可选:如需在突发事件关闭时收到通知,请选择 在突发事件关闭时发送通知。 默认情况下,当您使用 Google Cloud 控制台中,仅当发生突发事件 创建。

    3. 可选:如需更改 Monitoring 在多长时间之后等待 在数据不再到达后关闭突发事件,请从 突发事件自动关闭时长菜单。 默认情况下,当数据停止到达时,Monitoring 会等待 。

    4. 政策严重级别菜单中选择一个选项。突发事件和 通知会显示严重级别。

    5. 可选:如需为提醒政策添加自定义标签,请在 政策用户标签部分,执行以下操作:

      1. 点击添加标签,然后在字段中输入 标签。标签名称必须以小写字母开头,可以 包含小写字母、数字、下划线和短划线。 例如,输入 severity
      2. 点击,然后输入标签的值。标签值 包含小写字母、数字、下划线和短划线。 例如,输入 critical

      有关如何使用政策标签来帮助管理 您的通知,请参阅 使用标签为突发事件添加注解

  7. 可选:在 Documentation(文档)部分中,输入所需的任何内容 。

    如需设置文档格式,您可以使用纯文本、 Markdown 和变量。您还可以 包含有助于用户调试该事件的链接, 作为指向内部 playbook、Google Cloud 信息中心和外部 页面。例如,以下文档模板介绍了 gce_instance 资源的利用率突发事件,包括 多个变量,用于引用提醒政策和条件 REST 资源。文档模板 然后引导读者访问外部网页以帮助进行调试。

    创建通知后,Monitoring 会替换 文档变量及其值。 这些值仅替换通知中的变量。通过 预览窗格以及 Google Cloud 控制台中的其他位置 仅显示 Markdown 格式

    预览

    ## CPU utilization exceeded
    
    ### Summary
    
    The ${metric.display_name} of the ${resource.type}
    ${resource.label.instance_id} in the project ${resource.project} has
    exceeded 90% for over 15 minutes.
    
    ### Additional resource information
    
    Condition resource name: ${condition.name}  
    Alerting policy resource name: ${policy.name}  
    
    ### Troubleshooting and Debug References
    
    Repository with debug scripts: example.com  
    Internal troubleshooting guide: example.com  
    ${resource.type} dashboard: example.com
    

    通知中的格式

    文档如何在通知中呈现的示例。

    如需了解详情,请参阅 使用用户定义的文档为通知添加注释使用渠道控件

  8. 点击提醒名称,然后输入提醒政策的名称。

  9. 点击创建政策

过滤所选时序

过滤条件可确保只有符合某些条件的时序才会被纳入 监控。 应用过滤条件后,您可能会减少图表上的线条数量, 这样可以提高图表的性能您还可以减少 通过应用汇总来监控的数据量。 过滤条件可确保仅使用符合部分条件的时间序列。应用过滤条件后,要评估的时序就会变少, 以提升提醒性能。

过滤器由标签、比较运算符和值组成。例如: 来匹配 zone 标签以 "us-central1" 开头的所有时序, 可以使用过滤条件zone=~"us-central1.*",该过滤条件使用正则表达式 进行比较

按项目 ID 或资源容器进行过滤时, 因此必须使用等号运算符 (=)。过滤条件: 其他标签,则可以使用任何受支持的比较运算符。 通常,您可以按 资源组

如果您提供多个过滤条件 系统仅监控符合所有条件的时序。

如需添加过滤条件,请点击添加过滤条件,完成对话框,然后点击完成。在对话框中,您可以使用过滤条件字段来选择 作为过滤依据的条件,选择比较运算符,然后 选择该值。 下表中的每一行都列出了一个比较运算符及其含义和示例:

运算符含义示例
= 相等 resource.labels.zone = "us-central1-a"
!= 不相等 resource.labels.zone != "us-central1-a"
=~ 正则表达式 2 等式 monitoring.regex.full_match("^us.*")
!=~ 正则表达式 2 不等式 monitoring.regex.full_match("^us.*")
starts_with 值开头为 resource.labels.zone = starts_with("us")
ends_with 值结尾为 resource.labels.zone = ends_with("b")
has_substring 值包含 resource.labels.zone = has_substring("east")
one_of 以下之一 resource.labels.zone = one_of("asia-east1-b", "europe-north1-a")
!starts_with 值开头不是 resource.labels.zone != starts_with("us")
!ends_with 值结尾不是 resource.labels.zone != ends_with("b")
!has_substring 值不包含 resource.labels.zone != has_substring("east")
!one_of 值不是以下项之一 resource.labels.zone != one_of("asia-east1-b", "europe-north1-a")