管理和监控您的 Google Cloud 基础架构

Last reviewed 2023-11-13 UTC

将应用部署到 Google Cloud 中的生产环境后,您可能需要修改其使用的基础架构。例如,您可能需要更改虚拟机的机器类型或更改 Cloud Storage 存储桶的存储类别。Google Cloud 基础架构可靠性指南的这一部分总结了可降低基础架构资源可靠性风险的变更管理准则。本部分还介绍如何监控 Google Cloud 基础架构的可用性。

逐步部署基础架构更改

如果您需要尽可能更改 Google Cloud 基础架构,请逐步将更改部署到生产环境中。例如,如果您需要更改虚拟机的机器类型,请将更改部署到一个可用区中的一些虚拟机,并监控更改的效果。如果您发现任何问题,请将基础架构快速还原到先前的稳定状态。诊断并解决问题,然后重启逐步部署过程。验证您的工作负载是否按预期运行后,逐步在所有基础架构中部署更改。

如需详细了解可靠地测试和部署对 Google Cloud 基础架构和应用所做更改的策略,请参阅应用部署和测试策略

控制对全球资源的更改

如果您修改了全球性资源(例如 VPC 网络和全球负载均衡器),那么在将更改部署到生产环境之前,请务必谨慎验证更改。

由于全球性资源可以灵活应对可用区和区域服务中断,因此您可能会决定在架构中使用某些全球性资源的单个实例。在此类部署中,全球性资源可能会发生单点故障。例如,如果您无意中错误配置了全球负载均衡器的转发规则,则前端可能会停止接收或处理用户请求。实际上,在这种情况下,虽然后端保持不变,但用户无法使用应用。为避免这种情况,请严格控制全球性资源的更改。例如,在变更审核流程中,您可以将对全球性资源的任何修改归类为高风险变更,必须由其他审核者进行验证和批准。

监控 Google Cloud 基础架构的可用性

您可以使用 Google Cloud Service Health 信息中心监控所有区域的 Google Cloud 服务的当前状态。您还可以查看每项服务的基础架构故障(称为突发事件)的历史记录。历史记录页面提供每个突发事件的详细信息,例如突发事件时长、受影响的可用区和区域、受影响的服务,以及任何建议的解决方法。

您还可以使用 Personalized Service Health 查看与项目相关的突发事件。Service Health 还允许您使用 API 按项目或按组织请求突发事件信息,并配置提醒。

Google 会定期对每个突发事件的状态提供更新,包括预计下次更新的时间。您可以使用 RSS Feed 以编程方式获取突发事件的状态更新。如需了解详情,请参阅突发事件和 Google Cloud Service Health 信息中心