为可靠性设置切合实际的目标

Last reviewed 2024-12-30 UTC

Google Cloud 架构框架可靠性支柱中的这一原则可帮助您在 Google Cloud中为工作负载定义在技术上可行的可靠性目标。

此原则与可靠性的范围 重点领域相关。

原则概览

在设计系统时,应确保其可靠性足以让用户满意。这可能看起来违反常识,但以 100% 可靠性为目标通常不是最有效的策略。更高的可靠性可能会导致成本显著增加,无论是在财务投资方面,还是在创新潜在限制方面。如果用户对当前的服务水平已经满意,那么为进一步提高满意度而付出的努力可能不会带来高投资回报。您可以将资源更好地用于其他方面。

您需要确定用户满意的可靠性级别,并确定增量改进的成本开始超过收益的点。确定此级别的足够可靠性后,您就可以有策略地分配资源,并专注于为用户提供更大价值的功能和改进。

建议

如需设置切合实际的可靠性目标,请考虑以下子部分中的建议。

接受某些失败情况并确定组件的优先级

以高可用性(例如 99.99% 的正常运行时间)为目标,但不要将目标设置为 100% 的正常运行时间。承认某些失败是不可避免的。

100% 正常运行时间与 99.99% 目标值之间的差距就是故障容许值。这项差距通常称为误差预算。错误预算有助于您承担风险并进行创新,这对任何企业保持竞争力至关重要。

优先考虑系统中最关键组件的可靠性。 接受重要性较低的组件可以容忍更高的失败率。

平衡可靠性和费用

如需确定系统的最佳可靠性级别,请进行彻底的成本效益分析。

请考虑系统要求、故障后果以及贵组织对特定应用的风险容忍度等因素。请务必考虑您的灾难恢复指标,例如恢复时间目标 (RTO) 和恢复点目标 (RPO)。确定在预算和其他限制条件下可接受的可靠性级别。

在不影响基本可靠性功能的情况下,寻找提高效率和降低成本的方法。