监控健康状况

本页介绍了如何访问健康状况信息中心,以便监控和发现潜在问题。

健康状况有助于直观呈现 Google Distributed Cloud (GDC) 气隙式设备基础设施的基本指标,并提供组件健康状况的高级概览。通过可视化健康状况信息中心,您可以确定根本原因、诊断行为,并在调查过程中获取更多背景信息,从而解决问题。

GDC 会监控每个硬件和软件组件并提供其健康状况,包括:

  • 硬件:服务器节点
  • 软件:集群、虚拟机和存储

借助健康状况信息中心,您可以直观呈现每个组件用于衡量监控状态的指标。

准备工作

根集群包含一个供基础架构运维者使用的 Grafana 实例。这些 Grafana 实例包含健康状况信息中心。

您需要基于角色的访问权限控制才能安全地访问 Grafana 实例的信息中心内的数据可视化图表。因此,请按照“准备工作”部分中的说明查询和查看信息中心上的指标,以访问 Grafana 实例上的信息中心。

Grafana 端点

打开以下网址之一,以访问 infra-obs 项目或根管理员集群的 Grafana 端点:

  • infra-obs 项目的 Grafana 端点

    https://GDC_URL/infra-obs/grafana
    

    GDC_URL 替换为 GDC 中组织的网址。

  • 根管理员集群的 Grafana 端点

    https://ROOT_ADMIN_CLUSTER_URL/grafana
    

    ROOT_ADMIN_CLUSTER_URL 替换为 GDC 中根管理员集群的网址。

使用场景示例

本部分包含一些示例,说明如何在实际应用中使用信息中心。

性能优化

如果某个组件的性能不佳,但并不一定会影响 SLO 或触发提醒,您可以主动与开发者沟通,防止日后出现问题。

同样,组件可能需要了解其功能如何运作,以便做出正确的性能权衡。健康状况是收集组件所需信息的一种机制。

功能开发

假设客户请求更改或 GDC 计划发布新功能。在这种情况下,您可以观察相关组件的健康状况,以确定是否可以支持新功能或更改。此外,在确定工作优先级时,还可以使用健康状况来制定产品决策。

例如,假设某个组件的平均延迟时间为 500 毫秒,并且希望将其缩短到 250 毫秒。在这种情况下,团队可以计算延迟时间缩短 50% 的相对成本,并将其与设计响应时间为 250 毫秒的端点的成本进行比较。