舰队资源利用率指标

本页面通过说明舰队和团队资源利用率指标的计算方式并提供有关如何使用这些指标来优化资源用量的提示,更深入地介绍了舰队和团队资源利用率指标。

您可以在以下信息中心内查看这些指标:

这些指标描述了集群如何有效地利用您为之付费的物理可用资源或您在本地硬件上分配的资源。您可以使用此信息来了解舰队或团队范围级别上的大规模资源利用效率。这有助于优化集群和命名空间之间的集群大小和资源分配,或者优化应用团队请求和预留资源的方式。

使用资源利用率指标

以下提示可帮助您使用控制台中的指标来确定和解决问题:

  • 如果舰队的总 CPU/内存/磁盘利用率指示过去七天内的利用率异常高或低,请务必查看相应舰队的 CPU/内存/磁盘利用率图表,以评估异常利用率是否是固定的,还是由于使用量激增导致的。
  • 如果集群的最高 CPU/内存/磁盘利用率指示个别集群的行为与其余集群不同,请考虑更密切地调查这些特定集群。请考虑尽可能调整集群大小。
  • 如果命名空间的最高 CPU/内存/磁盘利用率显示过去七天内意外激增,请考虑调查特定工作负载是否导致了激增。一种可能的解决方案是在资源之间重新分配工作负载。
  • 舰队的 CPU/内存/磁盘利用率可让您观察已使用和已请求资源之间的比率。两者之间的差异大可能意味着应用团队请求并预留了太多资源。

了解资源利用率指标

GKE Enterprise、舰队和团队范围概览信息中心提供了以下指标,这些指标使用舰队集群上的 Cloud Monitoring 信息计算得出。

您可以在 GKE Enterprise 和舰队概览信息中心内查看舰队级指标。GKE Enterprise 和团队概览信息中心提供团队级别指标。

CPU 指标

  • 总 CPU 利用率
    • 对于舰队级指标,指的是给定时间范围内所有时间点的平均值,其中时间点是已注册到舰队的所有集群中的可分配资源和已使用资源之间的比率。
      • 可分配:分配给已注册到舰队的所有集群中的所有节点的 CPU 数量。根据 node/cpu/allocatable_cores 指标计算得出。
      • 已使用:已注册到舰队的所有集群中的所有容器使用的 CPU 数量。根据 container/cpu/core_usage_time 指标计算得出。
    • 对于团队 Monitoring 信息中心,指的是给定时间范围内所有时间点的平均值,其中时间点是与团队范围关联的所有命名空间中的已请求和已使用资源之间的比率。
      • 已请求:与团队范围关联的所有命名空间中的所有容器请求的 CPU 数量。 根据 container/cpu/request_cores 指标计算得出。
      • 已使用:与团队范围关联的所有命名空间中的所有容器使用的 CPU 数量。根据 container/cpu/core_usage_time 指标计算得出。
  • 舰队/团队的 CPU 利用率
    • 对于舰队级层,指的是已使用、已请求和已分配资源之间的关系。
      • 已使用:已注册到舰队的所有集群中的所有容器使用的 CPU 数量。根据 container/cpu/core_usage_time 指标计算得出。
      • 已请求:已注册到舰队的所有集群中的所有容器请求的 CPU 数量。根据 container/cpu/request_cores 指标计算得出。
      • 可分配:分配给已注册到舰队的所有集群中的所有节点的 CPU 数量。根据 node/cpu/allocatable_cores 指标计算得出。
    • 对于团队级别,指的是资源限制与已使用和已请求资源之间的关系。
      • 已使用:与团队范围关联的所有命名空间中的所有容器使用的 CPU 数量。根据 container/cpu/core_usage_time 指标计算得出。
      • 已请求:与团队范围关联的所有命名空间中的所有容器请求的 CPU 数量。 根据 container/cpu/request_cores 指标计算得出。
      • 限制:与团队范围关联的所有命名空间中的所有容器可用的 CPU 数量上限。 根据 container/cpu/limit_cores 指标计算得出。
  • 集群的最高 CPU 利用率:按给定时间范围内所有时间点的平均值排序的集群列表,其中时间点是特定集群的可分配资源和已使用资源之间的比率。
  • 命名空间的最高 CPU 利用率:按给定时间范围内所有时间点的平均值排序的命名空间列表,其中时间点是特定命名空间的已使用和已请求资源之间的比率。

内存指标

  • 总内存利用率
    • 对于舰队级指标,指的是给定时间范围内所有时间点的平均值,其中时间点是属于舰队的所有集群中的可分配资源和已使用资源之间的比率。
      • 可分配:分配给已注册到舰队的所有集群中的所有节点的内存量。根据 node/memory/allocatable_byte 指标计算得出。
      • 已使用:已注册到舰队的所有集群中的所有容器使用的不可逐出内存量。 根据 container/memory/used_bytes 指标计算得出。
    • 对于团队级指标,指的是给定时间范围内所有时间点的平均值,其中时间点是属于团队范围的所有命名空间中的已请求和已使用资源之间的比率。
      • 已请求:与范围关联的所有命名空间中的所有容器请求的内存量。 根据 container/memory/request_bytes 指标计算得出。
      • 已使用:与范围关联的所有命名空间中的所有容器使用的不可逐出内存量。根据 container/memory/used_bytes 指标计算得出。
  • 舰队/团队的内存利用率
    • 对于舰队级层,指的是已使用、已请求和已分配资源之间的关系。
      • 已使用:已注册到舰队的所有集群中的所有容器使用的不可逐出内存量。 根据 container/memory/used_bytes 指标计算得出。
      • 已请求:已注册到舰队的所有集群中的所有容器请求的内存量。根据 container/memory/request_bytes 指标计算得出。
      • 可分配:分配给已注册到舰队的所有集群中的所有节点的内存量。根据 node/memory/allocatable_byte 指标计算得出。
    • 对于团队级别,指的是资源限制与已使用和已请求资源之间的关系。
      • 已使用:与范围关联的所有命名空间中的所有容器使用的不可逐出内存量。根据 container/memory/used_bytes 指标计算得出。
      • 已请求:与范围关联的所有命名空间中的所有容器请求的内存量。 根据 container/memory/request_bytes 指标计算得出。
      • 限制:与范围关联的所有命名空间中的所有容器可用的内存量上限。根据 container/memory/limit_bytes 指标计算得出。
  • 集群的最高内存利用率:按给定时间范围内所有时间点的平均值排序的集群列表,其中时间点是特定集群的可分配资源和已使用资源之间的比率。
  • 命名空间的最高内存利用率:按给定时间范围内所有时间点的平均值排序的命名空间列表,其中时间点是特定命名空间的已使用和已请求资源之间的比率。

磁盘指标

  • 总磁盘利用率
    • 对于舰队级指标,指的是给定时间范围内所有时间点的平均值,其中时间点是属于舰队的所有集群中的可分配资源和已使用资源之间的比率。
    • 对于团队级指标,指的是给定时间范围内所有时间点的平均值,其中时间点是属于团队范围的所有命名空间中的已请求和已使用资源之间的比率。
  • 舰队/团队的磁盘利用率
    • 对于舰队级层,指的是已使用、已请求和已分配资源之间的关系。
    • 对于团队级别,指的是资源限制与已使用和已请求资源之间的关系。
  • 集群的最高磁盘利用率:按给定时间范围内所有时间点的平均值排序的集群列表,其中时间点是特定集群的可分配资源和已使用资源之间的比率。
  • 命名空间的最高磁盘利用率:按给定时间范围内所有时间点的平均值排序的命名空间列表,其中时间点是特定命名空间的已使用和已请求资源之间的比率。

按命名空间划分的错误分布(仅限团队级层)

按给定时间范围的错误日志数上限排序的命名空间列表。系统会从 Cloud Logging 收集日志。

按命名空间划分的重启次数分布(仅限团队级层)

按给定时间范围的容器重启次数上限排序的命名空间列表。根据 container/restart_count 指标计算得出。

问题排查

新集群未能加载指标

如果您创建了新集群,则根据您选择的时间范围,您可能会在 Monitoring 信息中心内看到 No Data,或者可能会看到指标。例如,如果您在过去一小时内创建了集群,并选择 1 小时6 小时的时间范围,则信息中心可能会返回工作负载的一些指标。但是,如果您选择 1 天或更长的时间范围,则可能会看到信息中心内显示 No data

这是因为 Cloud Monitoring 会在不同时间范围的不同时间段(时间间隔)内收集数据。对于 1 小时6 小时的时间范围,Cloud Monitoring 会在 1 分钟内收集数据。因此,如果集群已存在几分钟,则您会看到这些时间范围的指标。

对于 1 天1 周的时间范围,Cloud Monitoring 会在 1 小时内收集数据。如果集群已存在不到一小时,则您可能看不到这些时间范围的数据。

如果您遇到此错误,请在创建新集群后的一段时间后查看信息中心。