使用可观测性功能检测潜在故障

Last reviewed 2024-12-30 UTC

Google Cloud 架构框架可靠性支柱中的这一原则提供了一些建议,可帮助您主动发现可能发生错误和故障的方面。

此原则与可靠性的观察 重点领域相关。

原则概览

如需维护和提高Google Cloud中工作负载的可靠性,您需要使用指标、日志和轨迹实现有效的可观测性。

  • 指标是指您希望在特定时间间隔内跟踪应用的活动的数值衡量结果。例如,您可能需要跟踪请求速率和错误率等技术指标,这些指标可用作服务等级指标 (SLI)。您可能还需要跟踪特定于应用的业务指标,例如下单量和收到的付款金额。
  • 日志是应用或系统中发生的离散事件的时间戳记录。事件可能是失败、错误或状态变化。日志可能包含指标,您也可以将日志用于 SLI。
  • 轨迹表示单个用户或事务在多个单独的应用或应用组件中的历程。例如,这些组件可以是微服务。轨迹可帮助您跟踪历程中使用了哪些组件、存在哪些瓶颈以及历程所用时间。

指标、日志和跟踪记录可帮助您持续监控系统。全面监控有助于您了解错误的位置和原因。您还可以在错误发生之前检测到潜在失败情况。

建议

如需高效检测潜在失败情况,请考虑以下子部分中的建议。

获取全面的数据洞见

如需跟踪响应时间和错误率等关键指标,请使用 Cloud MonitoringCloud Logging。这些工具还有助于您确保指标始终符合工作负载的需求。

为了做出以数据为依据的决策,请分析默认服务指标,了解组件依赖项及其对整体工作负载性能的影响。

如需自定义监控策略,请使用 Google Cloud SDK 创建并发布您自己的指标。

执行主动问题排查

在 Google Cloud中实现强大的错误处理功能,并在工作负载的所有组件中启用日志记录。启用 Cloud Storage 访问日志VPC 流日志等日志。

配置日志记录时,请考虑相关的费用。如需控制日志记录费用,您可以在日志接收器上配置排除项过滤条件,以排除存储某些日志。

优化资源利用率

监控 CPU 用量、网络 I/O 指标和磁盘 I/O 指标,以检测 GKE、Compute Engine 和 Dataproc 等服务中的资源是否配置不足或过度配置。如需查看受支持服务的完整列表,请参阅 Cloud Monitoring 概览

确定提醒优先级

对于提醒,请重点关注关键指标,设置适当的阈值以最大限度减少警报疲劳,并确保对重大问题及时做出响应。通过这种有针对性的方法,您可以主动维护工作负载可靠性。如需了解详情,请参阅提醒概览