管理和监控您的 Google Cloud 基础架构

Last reviewed 2024-11-20 UTC

将应用部署到 Google Cloud的生产环境后，您可能需要修改其使用的基础架构。例如，您可能需要更改虚拟机的机器类型或更改 Cloud Storage 存储桶的存储类别。Google Cloud 基础架构可靠性指南的这一部分总结了可供您遵循的变更管理指南，以降低基础架构资源的可靠性风险。本部分还介绍了如何监控 Google Cloud 基础架构的可用性。

逐步部署基础架构更改

如果您需要尽可能更改 Google Cloud 基础架构，请逐步将更改部署到生产环境中。例如，如果您需要更改虚拟机的机器类型，请将更改部署到一个可用区中的一些虚拟机，并监控更改的效果。如果您发现任何问题，请将基础架构快速还原到先前的稳定状态。诊断并解决问题，然后重启渐进式部署流程。验证工作负载是否按预期运行后，请在整个基础架构中逐步部署更改。

控制对全球性资源的更改

如果您修改了全球性资源（例如 VPC 网络和全球负载均衡器），那么在将更改部署到生产环境之前，请务必谨慎验证更改。

由于全球性资源可以灵活应对可用区和区域服务中断，因此您可能会决定在架构中使用某些全球性资源的单个实例。在此类部署中，全球性资源可能会发生单点故障。例如，如果您无意中错误配置了全球负载均衡器的转发规则，则前端可能会停止接收或处理用户请求。在这种情况下，虽然后端完好无损，但用户实际上无法使用该应用。为避免这种情况，请严格控制全球性资源的更改。例如，在变更审核流程中，您可以将对全球性资源的任何修改归类为高风险变更，必须由其他审核者进行验证和批准。

监控 Google Cloud 基础架构的可用性

您可以使用Google Cloud Service Health 信息中心监控所有区域的 Google Cloud 服务的当前状态。您还可以查看每项服务的基础架构故障（称为突发事件）的历史记录。历史记录页面提供每个突发事件的详细信息，例如突发事件时长、受影响的可用区和区域、受影响的服务，以及任何建议的解决方法。

您还可以使用 Personalized Service Health 查看与项目相关的突发事件。借助 Service Health，您还可以使用 API 根据每个项目或每个组织请求事件信息，并配置提醒。

Google 会定期对每个突发事件的状态提供更新，包括预计下次更新的时间。您可以使用 RSS Feed 以编程方式获取突发事件的状态更新。如需了解详情，请参阅突发事件和 Google Cloud Service Health 信息中心。

管理流量和负载

后续操作

管理和监控您的 Google Cloud 基础架构 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

逐步部署基础架构更改

控制对全球性资源的更改

监控 Google Cloud 基础架构的可用性

管理和监控您的 Google Cloud 基础架构