Google Cloud 架构框架可靠性支柱中的这一原则提供了一些建议,可帮助您主动发现可能发生错误和故障的方面。
此原则与可靠性的观察 重点领域相关。
原则概览
如需维护和提高Google Cloud中工作负载的可靠性,您需要使用指标、日志和轨迹实现有效的可观测性。
- 指标是指您希望在特定时间间隔内跟踪应用的活动的数值衡量结果。例如,您可能需要跟踪请求速率和错误率等技术指标,这些指标可用作服务等级指标 (SLI)。您可能还需要跟踪特定于应用的业务指标,例如下单量和收到的付款金额。
- 日志是应用或系统中发生的离散事件的时间戳记录。事件可能是失败、错误或状态变化。日志可能包含指标,您也可以将日志用于 SLI。
- 轨迹表示单个用户或事务在多个单独的应用或应用组件中的历程。例如,这些组件可以是微服务。轨迹可帮助您跟踪历程中使用了哪些组件、存在哪些瓶颈以及历程所用时间。
指标、日志和跟踪记录可帮助您持续监控系统。全面监控有助于您了解错误的位置和原因。您还可以在错误发生之前检测到潜在失败情况。
建议
如需高效检测潜在失败情况,请考虑以下子部分中的建议。
获取全面的数据洞见
如需跟踪响应时间和错误率等关键指标,请使用 Cloud Monitoring 和 Cloud Logging。这些工具还有助于您确保指标始终符合工作负载的需求。
为了做出以数据为依据的决策,请分析默认服务指标,了解组件依赖项及其对整体工作负载性能的影响。
如需自定义监控策略,请使用 Google Cloud SDK 创建并发布您自己的指标。
执行主动问题排查
在 Google Cloud中实现强大的错误处理功能,并在工作负载的所有组件中启用日志记录。启用 Cloud Storage 访问日志和 VPC 流日志等日志。
配置日志记录时,请考虑相关的费用。如需控制日志记录费用,您可以在日志接收器上配置排除项过滤条件,以排除存储某些日志。
优化资源利用率
监控 CPU 用量、网络 I/O 指标和磁盘 I/O 指标,以检测 GKE、Compute Engine 和 Dataproc 等服务中的资源是否配置不足或过度配置。如需查看受支持服务的完整列表,请参阅 Cloud Monitoring 概览。
确定提醒优先级
对于提醒,请重点关注关键指标,设置适当的阈值以最大限度减少警报疲劳,并确保对重大问题及时做出响应。通过这种有针对性的方法,您可以主动维护工作负载可靠性。如需了解详情,请参阅提醒概览。