此页面由 Cloud Translation API 翻译。

利用可观测性检测潜在故障

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework 可靠性核心中的这一原则提供了相关建议，可帮助您主动找出可能发生错误和故障的领域。

此原则与可靠性的观测重点领域相关。

原则概览

为了在Google Cloud中保持和提高工作负载的可靠性，您需要使用指标、日志和轨迹来实现有效的可观测性。

指标是指您希望在特定时间间隔内跟踪的应用活动的数值衡量结果。例如，您可能需要跟踪请求率和错误率等技术指标，这些指标可用作服务等级指标 (SLI)。您可能还需要跟踪特定于应用的业务指标，例如已下单数量和已收款项。
日志是应用或系统内发生的离散事件的时间戳记录。该事件可能是故障、错误或状态变化。日志可能包含指标，您也可以将日志用于 SLI。
轨迹表示单个用户或交易在多个单独的应用或应用组件中的历程。例如，这些组件可以是微服务。轨迹可帮助您跟踪旅程中使用的组件、存在的瓶颈以及旅程所花费的时间。

借助指标、日志和跟踪记录，您可以持续监控系统。全面的监控有助于您找出错误发生的位置和原因。您还可以在发生错误之前检测到潜在的故障。

如需高效检测潜在故障，请考虑以下各子部分中的建议。

如需跟踪响应时间和错误率等关键指标，请使用 Cloud Monitoring 和 Cloud Logging。这些工具还有助于确保指标始终满足工作负载的需求。

为了做出以数据为依据的决策，请分析默认服务指标，了解组件依赖关系及其对整体工作负载性能的影响。

如需自定义监控策略，请使用 Google Cloud SDK 创建并发布自己的指标。

在 Google Cloud中实现强大的错误处理功能，并为工作负载的所有组件启用日志记录。启用 Cloud Storage 访问日志和 VPC 流日志等日志。

配置日志记录时，请考虑相关费用。如需控制日志记录费用，您可以在日志接收器上配置排除项过滤条件，以免存储某些日志。

监控 CPU 消耗量、网络 I/O 指标和磁盘 I/O 指标，以检测 GKE、Compute Engine 和 Dataproc 等服务中资源配置不足和资源配置过多的情况。如需查看受支持服务的完整列表，请参阅 Cloud Monitoring 概览。

对于提醒，请重点关注关键指标，设置适当的阈值以最大限度减少提醒疲劳，并确保及时响应重大问题。这种有针对性的方法可让您主动维护工作负载可靠性。如需了解详情，请参阅提醒概览。