指标比率简介

本文档可帮助您选择绘制图表或监控比率的最佳方法 指标数据的一部分。它还包含指向示例的链接, 确定何时可以计算比率 并说明了在绘制二分之一的宽高比图表时 不同的指标这些异常是由于 或对齐参数

利用比率,您可以将指标数据转换为 更加实用,表单。例如,假设 统计 HTTP 响应数量的指标类型, 响应代码。指标数据会报告错误数量 而不是失败的请求所占的比例不过, 性能要求通常以百分比的形式指定 “错误率必须小于 0.1%”。确定错误率 通过使用指标数据,您可以计算失败的请求数所占的比率, 占请求总数的百分比

最佳做法

要监控指标数据的比率或绘制其图表,我们建议您使用 Monitoring Query Language (MQL)。您可以将 MQL 与 Cloud Monitoring API 以及 Google Cloud 控制台。 Google Cloud 控制台包含一个代码编辑器 提供建议、错误检测和其他支持, MQL 查询数。如需更多信息和示例 请参阅以下文档:

要创建提醒政策,以便在发生以下情况时监控指标比率: 不熟悉 MQL,请使用 Cloud Monitoring API 并添加 时间序列过滤条件。如需查看示例,请参阅 指标比率

要在您不熟悉 MQL 的情况下绘制指标数据的比率图表, 我们建议您使用 Google Cloud 控制台 并使用菜单驱动型界面 有关详细说明,请参阅: 绘制指标比率图表 向自定义信息中心添加图表和表格

比率的限制

配置比率时,需要遵循以下限制:

  • 汇总后,分母时序中的标签必须是 或者是分子时序中标签的子集。

    我们建议您在选择汇总选项时 则分子和分母时序具有相同的 标签。

    假设分子时序具有 methodquota_metricproject_id 标签。分母时间 系列包含 limit_namequota_metricproject_id 标签。 分母分组的有效选项取决于 分子:

    • method 标签分组的分子: 将分母时序合并为单个时序。 没有其他分组得出分母时序的标签 是分子时序标签的子集。
    • quota_metric 标签分组的分子: 按该标签对分母进行分组,或合并所有分母 分母中的时序转换为单个时序。
    • quota_metricproject_id 标签分组的分子: 按两个标签或一个标签对分母进行分组,也可以将 分母时序转换为单个时序。

    有效的分母汇总选项始终会消除 limit_name 标签,因为 标签。

    如需查看示例,请参阅 MQL 提醒政策示例

  • 分子和分母的校准时间段必须相同 使用 Google Cloud 控制台配置图表时: 但是,使用 Cloud Monitoring API 时,这些字段可能不同。

    我们建议您对分子和 而不考虑您用来创建图表的工具

  • 分子和分母必须相同 值类型。 例如,当分子的类型为 DOUBLE 时,分母 还必须是 DOUBLE 类型。

    比率要求分子和分母指标具有值 DOUBLEINT64 类型。

  • 分子和分母的校准时序必须具有 相同的指标种类。当两个指标的 不同种类,则必须使用校准器将它们转换为同一种类型。

    假设在这样一个配置中,我们选择 DELTA 指标作为 选择分子和 GAUGE 指标作为分母。 在这种情况下,请使用速率校准器 ALIGN_RATE, 将 DELTA 指标转换为 GAUGE 指标。如需查看示例,请参阅 关于一个限额的速率配额用量的比率提醒政策

  • 对于未使用 MQL 定义的比率,受监控的资源类型 分子和分母必须相同。

    例如,如果分子指标的资源 是 Compute Engine 实例,那么分母指标的资源 Compute Engine 实例

因抽样和对齐方式不匹配而导致的异常值

通常,最好根据为单个指标类型收集的时间序列使用标签值计算比率。二次计算的比率 不同指标类型可能会因抽样方式不同而出现异常 句号和对齐窗口

例如,假设您有两个不同的指标类型,一个是 RPC 总数,一个是 RPC 错误数量,并且您想要计算错误 RPC 与总 RPC 的比率。失败的 RPC 会计入这两个指标类型的时序中。因此,当您校准时序时,某个失败的 RPC 可能不会出现在两个时序的同一校准间隔中。导致这种差异的原因有很多,包括:

  • 由于两个不同的时序记录同一事件,因此有两个计数器值在实现集合,并且它们不会以原子方式更新。
  • 采样率可能会不一样。当时序与公共时间段校准时,单个事件的计数可能会出现在不同指标的时序的相邻校准间隔中。

相应校准间隔内值的数量差可能导致无意义的 error/total 比率值,例如 1/0 或 2/1。

比率越大,产生无意义值的可能性就越小。 您可以通过使用校准窗口进行聚合来获得更大的数字 即 或对特定时间段内的数据进行分组 标签。这些方法可以最大限度地减少给定时间间隔中数据点数量的微小差异的影响。也就是说,在一个时间间隔内,预期数据点数量为 3 时的两点间差异会比预期数量为 300 时更明显。

如果您使用的是内置指标类型,则可能只能计算不同指标类型的比率以获得所需的值。

如果您设计的自定义指标可能会在两个不同的指标中统计相同的内容(例如,返回错误状态的 RPC 数量),请考虑使用单个指标,以使每个计数仅被包含一次。例如,假设您在统计 RPC 数量并想要跟踪失败的 RPC 与所有 RPC 之比。要解决此问题,请创建单个指标类型来统计 RPC 数量,然后使用标签来记录调用状态,包括“成功”状态。然后,通过更新单个计数器即可记录每个状态值(在此例中为“错误”或“成功”)。

后续步骤