Google Cloud 架构框架可靠性支柱中的这一原则提供了有关规划、构建和管理资源冗余的建议,可帮助您避免故障。
此原则与可靠性的范围 重点领域相关。
原则概览
确定所需的可靠性级别后,您必须设计系统以避免任何单点故障。系统中的每个关键组件都必须跨多个机器、可用区和区域进行复制。例如,关键数据库不能仅位于一个区域,元数据服务器也不能仅部署在一个可用区或区域。在这些示例中,如果唯一的可用区或区域发生服务中断,则系统会发生全球服务中断。
建议
如需构建冗余系统,请考虑以下子部分中的建议。
识别故障网域和复制服务
从单个虚拟机到区域,绘制系统的故障域图,并在设计时将跨故障域实现冗余纳入考量。
为了确保高可用性,请将您的服务和应用分布和复制到多个可用区和区域。将系统配置为自动故障切换,以确保在可用区或区域发生服务中断时,服务和应用仍可正常使用。
如需查看多可用区和多区域架构示例,请参阅在 Google Cloud中为工作负载设计可靠的基础架构。
及时检测和解决问题
持续跟踪失败网域的状态,以便及时发现和解决问题。
您可以使用 Google Cloud Service Health 信息中心,监控所有区域的 Google Cloud 服务的当前状态。您还可以使用 Personalized Service Health 查看与项目相关的突发事件。您可以使用负载平衡器检测资源运行状况,并自动将流量路由到运行状况良好的后端。如需了解详情,请参阅健康检查概览。
测试故障切换场景
就像进行消防演练一样,定期模拟故障,以验证您的复制和故障切换策略的有效性。
如需了解详情,请参阅模拟区域级 MIG 的可用区服务中断情况和模拟 GKE 区域级集群中的可用区故障。