Google Cloud 架构框架可靠性支柱中的这一原则可帮助您评估用户体验,然后将调查结果映射到可靠性目标和指标。
此原则与可靠性的范围 重点领域相关。
原则概览
可观测性工具会提供大量数据,但并非所有数据都与对用户的影响直接相关。例如,您可能会发现 CPU 使用率较高、服务器操作缓慢,甚至任务崩溃。不过,如果这些问题不会影响用户体验,则不构成服务中断。
若要衡量用户体验,您需要区分内部系统行为和面向用户的问题。重点关注用户请求成功率等指标。请勿仅依赖于以服务器为中心的指标(例如 CPU 使用率),因为这可能会导致对服务可靠性做出误导性结论。真正的可靠性意味着用户可以持续有效地使用您的应用或服务。
建议
为帮助您有效衡量用户体验,请考虑以下部分中的建议。
衡量用户体验
若要真正了解服务的可靠性,请优先关注反映用户实际体验的指标。例如,衡量用户的查询成功率、应用延迟时间和错误率。
理想情况下,应直接从用户的设备或浏览器收集此类数据。如果无法直接收集数据,请在系统中将衡量点逐渐移离用户。例如,您可以将负载均衡器或前端服务用作测量点。这种方法有助于您在问题对用户造成严重影响之前发现和解决问题。
分析用户体验历程
如需了解用户如何与您的系统互动,您可以使用 Cloud Trace 等跟踪工具。通过跟踪用户在应用中的体验历程,您可以发现可能会降低用户体验的瓶颈和延迟问题。Cloud Trace 会捕获服务架构中每个跳转的详细性能数据。这些数据有助于您更高效地发现和解决性能问题,从而提供更可靠、更令人满意的用户体验。