本文档可帮助您选择绘制图表或监控比率的最佳方法 指标数据的一部分。它还包含指向示例的链接, 确定何时可以计算比率 并说明了在绘制二分之一的宽高比图表时 不同的指标这些异常是由于 或对齐参数
利用比率,您可以将指标数据转换为 更加实用,表单。例如,假设有一个指标类型,用于按响应代码统计 HTTP 响应数量。指标数据会报告错误数量,但不会报告失败请求所占的比例。不过,性能要求通常以百分比的形式指定,例如“错误率必须低于 0.1%”。确定错误率 通过使用指标数据,您可以计算失败的请求数所占的比率, 占请求总数的百分比
最佳做法
如需监控或绘制指标数据的比率图表,我们建议您使用 PromQL。您可以将 PromQL 与 Cloud Monitoring API 以及 Google Cloud 控制台。 Google Cloud 控制台中包含一个代码编辑器,可提供建议、错误检测和其他支持,以创建有效的 PromQL 查询。
要创建提醒政策,以便在发生以下情况时监控指标比率: 不熟悉 PromQL,请使用 Cloud Monitoring API 并添加一个 时间序列过滤条件。如需查看示例,请参阅指标比率。
要在您不熟悉 PromQL 时绘制指标数据的比率图表, 我们建议您使用 Google Cloud 控制台 并使用菜单驱动型界面 有关详细说明,请参阅: 绘制指标比率图表 向自定义信息中心添加图表和表格。
比率的限制
配置比率时,需要遵循以下限制:
汇总后,分母时序中的标签必须是 或者是分子时序中标签的子集。
我们建议您在选择汇总选项时 则分子和分母时序具有相同的 标签。
假设在某个配置中,分子时间序列具有
method
、quota_metric
和project_id
标签。分母时间序列具有limit_name
、quota_metric
和project_id
标签。分母分组的有效选项取决于 分子:- 按
method
标签分组的分子: 将分母时序合并为单个时序。 任何其他分组都不会导致分母时间序列的标签是分子时间序列标签的子集。 - 按
quota_metric
标签分组的分子:按该标签分组分母,或将分母中的所有时间序列合并为单个时间序列。 - 按
quota_metric
和project_id
标签对分子进行分组:按这两个标签或其中一个标签对分母进行分组,或将分母时间序列合并为单个时间序列。
有效的分母汇总选项始终会从分组时间序列中移除
limit_name
标签,因为该标签不存在于分子时间序列中。- 按
分子和分母的校准时间段必须相同 使用 Google Cloud 控制台配置图表时: 但是,使用 Cloud Monitoring API 时,这些字段可能不同。
我们建议您对分子和 而不考虑您用来创建图表的工具
分子和分母必须具有相同的值类型。例如,当分子的类型为
DOUBLE
时,分母 还必须是DOUBLE
类型。比率要求分子和分母指标具有值
DOUBLE
或INT64
类型。分子和分母的校准时序必须具有 相同的指标种类。如果两个指标的种类不同,您必须使用对齐器将它们转换为相同的种类。
假设在这样一种配置中,我们选择“
DELTA
”指标作为 选择分子和GAUGE
指标作为分母。 在这种情况下,请使用速率校准器ALIGN_RATE
, 将DELTA
指标转换为GAUGE
指标。如需查看示例,请参阅某一限制的速率配额使用率的比例提醒政策。对于未使用 PromQL 定义的比率,分子和分母的受监控资源类型必须相同。
例如,如果分子指标的资源是 Compute Engine 实例,那么分母指标的资源也必须是 Compute Engine 实例。
由于抽样和对齐不匹配而导致的异常
通常,最好根据为单个指标类型收集的时间序列使用标签值计算比率。由于抽样周期和对齐时间范围不同,根据两个不同指标类型计算出的比率可能会出现异常。
例如,假设您有两个不同的指标类型,一个是 RPC 总数,一个是 RPC 错误数量,并且您想要计算错误 RPC 与总 RPC 的比率。失败的 RPC 会计入这两个指标类型的时序中。因此,当您校准时序时,某个失败的 RPC 可能不会出现在两个时序的同一校准间隔中。导致这种差异的原因有很多,包括:
- 由于两个不同的时序记录同一事件,因此有两个计数器值在实现集合,并且它们不会以原子方式更新。
- 采样率可能会不一样。当时序与公共时间段校准时,单个事件的计数可能会出现在不同指标的时序的相邻校准间隔中。
相应校准间隔内值的数量差可能导致无意义的 error/total
比率值,例如 1/0 或 2/1。
较大数字的比率不太可能导致无意义的值。您可以通过使用校准窗口进行聚合来获得更大的数字 即 或对特定时间段内的数据进行分组 标签。这些方法可以最大限度地减少给定时间间隔中数据点数量的微小差异的影响。也就是说,在一个时间间隔内,预期数据点数量为 3 时的两点间差异会比预期数量为 300 时更明显。
如果您使用的是内置指标类型,则可能只能计算不同指标类型的比率以获得所需的值。
如果您设计的自定义指标可能会在两个不同的指标中统计相同的内容(例如,返回错误状态的 RPC 数量),请考虑使用单个指标,以使每个计数仅被包含一次。例如,假设您在统计 RPC 数量并想要跟踪失败的 RPC 与所有 RPC 之比。要解决此问题,请创建单个指标类型来统计 RPC 数量,然后使用标签来记录调用状态,包括“成功”状态。然后,通过更新单个计数器即可记录每个状态值(在此例中为“错误”或“成功”)。
后续步骤
有关使用 PromQL 配置提醒的信息 政策,请参阅使用 PromQL 设置提醒政策。
如需了解如何创建图表,请参阅以下文档:
- 如需创建临时图表,请参阅 Metrics Explorer。
- 如需使用 Google Cloud 控制台将图表添加到信息中心,请参阅 向自定义信息中心添加图表和表格。
- 如需使用 Cloud Monitoring API 管理图表,请参阅使用 API 创建和管理信息中心。