根據使用者體驗目標定義可靠性

Last reviewed 2024-12-30 UTC

Google Cloud 架構完善架構的可靠性支柱中的這項原則,可協助您評估使用者體驗,然後將評估結果對應至可靠性目標和指標。

這項原則與可靠性的範圍 重點領域相關。

原則總覽

可觀測性工具會提供大量資料,但並非所有資料都與對使用者的影響直接相關。舉例來說,您可能會發現 CPU 使用率偏高、伺服器作業緩慢,甚至是工作當機。不過,如果這些問題不會影響使用者體驗,就不算中斷服務。

如要評估使用者體驗,您必須區分內部系統行為和使用者遇到的問題。著重於使用者要求成功率等指標。請勿只依據以伺服器為中心的指標 (例如 CPU 用量),這可能會導致您對服務穩定性做出誤導性結論。真正的可靠性是指使用者能持續有效地使用您的應用程式或服務。

建議

為協助您有效評估使用者體驗,請參考下列各節的建議。

評估使用者體驗

如要真正瞭解服務的穩定性,請優先考量反映使用者實際體驗的指標。例如,測量使用者的查詢成功率、應用程式延遲時間和錯誤率。

最好直接從使用者的裝置或瀏覽器收集這項資料。如果無法直接收集資料,請逐步將評估點從系統中的使用者移開。舉例來說,您可以將負載平衡器或前端服務做為測量點。這種做法有助於您找出並解決問題,以免使用者受到重大影響。

分析使用者歷程

如要瞭解使用者與系統的互動情形,可以使用追蹤工具,例如 Cloud Trace。追蹤使用者在應用程式中的歷程,找出可能導致使用者體驗不佳的瓶頸和延遲問題。Cloud Trace 會擷取服務架構中每個躍點的詳細效能資料。這項資料有助於更有效率地找出並解決效能問題,進而提供更可靠且令人滿意的使用者體驗。