使用标签为突发事件添加注解

本文档介绍了如何通过为突发事件添加用户定义的标签来对其进行整理并确定其优先级。这些标签根据提醒政策配置,并列在提醒政策和突发事件中。根据您的配置,系统还会在某些通知上列出这些标签。

标签简介

标签是键值对,用于将信息附加到时间序列、提醒政策、突发事件或通知。例如,时序上的标签可标识从中收集数据的特定虚拟机 (VM) 实例。标签可以是用户定义的标签,也可以是预定义的标签。

用户指定的标签

用户定义的标签包含您指定的信息。这些标签可具有静态值或动态值:

标签必须以小写字母开头。标签键和标签值只能包含小写字母、数字、下划线和短划线。

预定义的标签

预定义的标签包含在资源描述符中;写入时间序列数据时必须填充这些标签。这些标签显示有关收集的指标或写入指标所针对的资源的信息。例如,时序上的标签可标识虚拟机 (VM)、地区、Google Cloud 项目和设备类型。当 Monitoring 根据该时序创建突发事件时,突发事件会继承这些标签。

如何查看标签

您可以在突发事件的详细信息页面提醒政策的详情页面和某些通知中查看提醒政策或突发事件的标签。

  • 提醒政策:用户标签部分列出了用户定义的静态标签。系统不会显示用户定义的动态标签和预定义标签。
  • 事件:静态用户定义的标签列在政策标签部分中,动态用户定义的标签列在指标标签部分中。受监控的资源标签指标标签部分中列出了预定义的标签。
  • 通知:以下通知类型中列出了预定义标签和用户定义的标签:

    • 电子邮件
    • Google Chat
    • PagerDuty
    • Pub/Sub
    • Webhook

示例:添加包含动态值的用户定义的标签

您可以使用 MQL 配置标签,使其值根据时间序列数据动态变化。例如,您希望为突发事件添加 criticality 标签,该标签的值会根据受监控的 CPU 利用率指标的值而变化:

fetch gce_instance
| metric 'compute.googleapis.com/instance/cpu/utilization'
| group_by sliding(5m), [value_utilization_mean: mean(value.utilization)]
| map
    add[
      criticality:
        if(val() >= 90 '%', 'CRITICAL',
          if(val() >= 80 '%', 'WARNING',
            if(val() >= 70 '%', 'INFO', 'GOOD')))
    ]
| condition val() >= 70 '%'

下图说明了使用 MQL 查询的提醒政策如何处理它们监控的时间序列数据:

提醒策略如何处理其受监控的时序。

政策处理程序处理 CPU 利用率数据,并输出一个时序,指示何时满足条件。在前面的示例中,当 CPU 利用率至少为 70% 时,条件就满足。对于每个输入时序,政策处理程序可以生成以下四个时序之一:

输出时序名称 满足条件 说明
“GOOD” 此时序的标签与输入时序的标签相同。但没有严重级别标签。
“CRITical” CPU 利用率至少为 90%。输出时序的标签与“GOOD”时序相同,还带有值为“CRITical”的严重性标签。
“警告” CPU 利用率至少为 80% 但低于 90%。输出时序的标签与“GOOD”时序相同,还有一个值为“WARNING”的严重性标签。
“INFO” CPU 利用率至少为 70% 但低于 80%。输出时序的标签与“GOOD”时序相同,还带有值为“INFO”的严重性标签。

政策处理程序生成的时间序列数据是突发事件管理器的输入,用于确定突发事件的创建和关闭时间。为了确定何时结束突发事件,突发事件管理员会使用 durationevaluationMissingDataautoClose 字段的值。

最佳实践

若要确保在创建值动态设置的标签时,一次最多只有一个突发事件未解决,请执行以下操作:

  • MetricThreshold 对象中,替换以下字段的默认值:

    • duration 字段:设置为非零值。
    • evaluationMissingData 字段:设置此字段后,突发事件将在数据停止送达时关闭。使用 Cloud Monitoring API 时,请将此字段设置为 EVALUATION_MISSING_DATA_INACTIVE。使用 Google Cloud 控制台时,请将该字段设置为“缺失的数据点被视为不违反政策条件的值”。
  • AlertStrategy 对象中,将 autoClose 字段设置为最小值(30 分钟)。使用 Cloud Monitoring API 时,请将此字段设置为 30m

如需了解详情,请参阅部分指标数据

突发事件流程

假设在创建提醒政策时 CPU 利用率测量值低于 70%。以下顺序说明了突发事件的打开和关闭方式:

  1. 由于 CPU 利用率测量结果低于 70%,因此政策处理程序会生成“良好”时序,并且不会创建任何突发事件。

  2. 接下来,假设 CPU 利用率升到 93%。政策处理程序停止生成“良好”时序数据,并开始为“关键”时序生成数据。

    突发事件管理员会看到符合相应条件的新“关键”时序,然后创建突发事件。通知包含值为 CRITICAL 的严重性标签。

  3. 假设 CPU 利用率降为 75%。政策处理程序停止生成“关键”时序,并开始生成“信息”时序。

    突发事件管理员会看到符合相应条件的新“INFO”时序,然后创建突发事件。通知包含值为 INFO 的严重性标签。

    突发事件管理员会看到“关键”时序没有数据到达,并且该时序有未处理的事件。由于政策配置为在数据停止到达时关闭突发事件,因此突发事件管理器会关闭与“CRITical”时序关联的突发事件。因此,只有严重级别标签为 INFO 的突发事件才会保持未结状态。

  4. 最后,假设 CPU 利用率降到 45%。该值小于所有阈值,因此政策处理程序会停止生成“INFO”时序,并开始生成“GOOD”时序。

    突发事件管理员会看到“INFO”时序没有数据到达,并且该时序的突发事件未解决。由于政策使用的是建议的设置,因此突发事件已关闭。

如果您没有为 evaluationMissingData 字段使用建议的值,则当数据不再到达时,未结突发事件不会立即关闭。结果就是,您可能会看到针对同一输入时序的多个未结突发事件。如需了解详情,请参阅部分指标数据

后续步骤