此页面由 Cloud Translation API 翻译。

通过资源冗余构建高可用性系统

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework可靠性核心中的这一原则提供了相关建议，可帮助您规划、构建和管理资源冗余，从而避免故障。

此原则与可靠性的范围界定 重点领域相关。

原则概览

在确定所需的可靠性级别后，您必须设计系统以避免任何单点故障。系统中的每个关键组件都必须跨多台机器、多个可用区和多个区域进行复制。例如，关键数据库不能仅位于一个区域中，元数据服务器也不能仅部署在一个可用区或区域中。在这些示例中，如果唯一的可用区或区域发生服务中断，则系统会发生全球性服务中断。

建议

如需构建冗余系统，请考虑以下各子部分中的建议。

确定故障网域并复制服务

从单个虚拟机到区域，规划出系统的故障域，并设计跨故障域的冗余。

为确保高可用性，请将服务和应用分布并复制到多个可用区和区域。配置系统以实现自动故障切换，确保服务和应用在可用区或区域发生服务中断时仍可继续使用。

如需查看多可用区和多区域架构的示例，请参阅为 Google Cloud中的工作负载设计可靠的基础设施。

及时检测和解决问题

持续跟踪故障网域的状态，以便及时检测和解决问题。

您可以使用 Google Cloud Service Health 信息中心监控所有区域的 Google Cloud 服务的当前状态。您还可以使用 Personalized Service Health 查看与项目相关的突发事件。您可以使用负载平衡器来检测资源健康状况，并自动将流量路由到健康状况良好的后端。如需了解详情，请参阅健康检查概览。

测试故障切换场景

与消防演习类似，定期模拟故障，以验证复制和故障切换策略的有效性。

如需了解详情，请参阅模拟区域级 MIG 的可用区服务中断情况和模拟 GKE 区域级集群中的可用区故障。

设定切合实际的可靠性目标

利用横向可伸缩性优势