本页介绍了如何访问健康状况信息中心,以便监控和发现潜在问题。
健康状况有助于直观呈现 Google Distributed Cloud (GDC) 气隙式设备基础设施的基本指标,并提供组件健康状况的高级概览。通过可视化健康状况信息中心,您可以确定根本原因、诊断行为,并在调查过程中获取更多背景信息,从而解决问题。
GDC 会监控每个硬件和软件组件并提供其健康状况,包括:
- 硬件:服务器节点
- 软件:集群、虚拟机和存储
借助健康状况信息中心,您可以直观呈现每个组件用于衡量监控状态的指标。
准备工作
根集群包含一个供基础架构运维者使用的 Grafana 实例。这些 Grafana 实例包含健康状况信息中心。
您需要基于角色的访问权限控制才能安全地访问 Grafana 实例的信息中心内的数据可视化图表。因此,请按照“准备工作”部分中的说明查询和查看信息中心上的指标,以访问 Grafana 实例上的信息中心。
Grafana 端点
打开以下网址之一,以访问 infra-obs 项目或根管理员集群的 Grafana 端点:
infra-obs项目的 Grafana 端点:https://GDC_URL/infra-obs/grafana将 GDC_URL 替换为 GDC 中组织的网址。
根管理员集群的 Grafana 端点:
https://ROOT_ADMIN_CLUSTER_URL/grafana将 ROOT_ADMIN_CLUSTER_URL 替换为 GDC 中根管理员集群的网址。
使用场景示例
本部分包含一些示例,说明如何在实际应用中使用信息中心。
性能优化
如果某个组件的性能不佳,但并不一定会影响 SLO 或触发提醒,您可以主动与开发者沟通,防止日后出现问题。
同样,组件可能需要了解其功能如何运作,以便做出正确的性能权衡。健康状况是收集组件所需信息的一种机制。
功能开发
假设客户请求更改或 GDC 计划发布新功能。在这种情况下,您可以观察相关组件的健康状况,以确定是否可以支持新功能或更改。此外,在确定工作优先级时,还可以使用健康状况来制定产品决策。
例如,假设某个组件的平均延迟时间为 500 毫秒,并且希望将其缩短到 250 毫秒。在这种情况下,团队可以计算延迟时间缩短 50% 的相对成本,并将其与设计响应时间为 250 毫秒的端点的成本进行比较。