私有云维护和更新

私有云环境的设计方式如下 故障点:

  • ESXi 集群已配置为具备 vSphere 高可用性 (HA)。集群的规模已进行调整,至少有一个备用节点以实现弹性。
  • vSAN 提供冗余主存储空间,至少需要三个节点来防范单点故障。对于较大的集群,您可以配置 vSAN 以提供更高的弹性。
  • vCenter、PSC 和 NSX Manager 虚拟机 (VM) 配置有 RAID-10 存储空间来防范存储故障。此外,虚拟机还可以通过 vSphere 高可用性防范节点和网络故障。
  • ESXi 主机具有冗余风扇和 NIC。
  • TOR 和主交换机以高可用性方式成对配置,以提供弹性。

VMware Engine 持续监控正常运行时间、监控可用性 并为以下类型的虚拟机提供可用性服务等级协议 (SLA):

  • ESXi 主机
  • vCenter
  • PSC
  • NSX Manager

VMware Engine 会持续监控以下各项是否出现故障:

  • 硬盘
  • 物理 NIC 端口
  • 服务器
  • 风扇
  • 电源
  • 交换机
  • 交换机端口

如果磁盘或节点出现故障,则 VMware Engine 会立即自动向受影响的 VMware 集群添加新节点,以恢复服务可操作性。

系统会备份、维护和更新私有云中的以下 VMware 元素:

  • ESXi
  • vCenter Platform Services Controller
  • vSAN
  • NSX

备份和恢复

备份包括:

  • vCenter、PSC 和 DVS 规则的夜间增量备份。
  • 用于备份应用层组件的 vCenter 原生 API。
  • 在更新或升级 VMware 管理软件之前自动备份。

维护

包含以下类型的计划维护。

后端和内部维护

后端和内部维护通常涉及重新配置物理资源或安装软件补丁程序。它不会影响所服务的资源的正常消耗。由于冗余 NIC 会进入每个物理机架,因此正常网络流量和私有云操作不受影响。只有当您的组织预计在维护间隔期间使用全部冗余带宽时,您才可能注意到性能影响。

门户维护

更新控制层面或基础架构时,需要一些有限的服务停机时间。维护间隔的频率可以为每月一次,并且该频率预计会随着时间推移而下降。VMware Engine 会通知您即将进行门户维护,并尽力缩短维护间隔。在门户维护间隔期间,以下服务将继续正常运行,没有任何影响:

  • VMware 管理层面和应用
  • vCenter 访问权限
  • 所有网络和存储空间

VMware 基础架构维护

偶尔会需要更改 VMware 基础架构的配置。这些间隔可能每 1-2 个月发生一次,但频率预计会随时间推移而下降。这种类型的维护通常不会中断正常的私有云消耗。在 VMware 维护间隔期间,以下服务将继续运行,没有任何影响:

  • VMware 管理层面和应用
  • vCenter 访问权限
  • 所有网络和存储空间

更新和升级

VMware Engine 负责对私有云中的 VMware 软件(ESXi、vCenter、PSC 和 NSX)进行生命周期管理。

软件更新包括以下内容:

  • 补丁程序:VMware 发布的安全补丁程序或 Bug 修复
  • 更新:VMware 堆栈组件的次要版本变更
  • 升级:VMware 堆栈组件的主要版本变更

在 VMware 提供重要安全补丁程序后,VMware Engine 会立即对其进行测试。根据服务等级协议 (SLA),VMware Engine 的目标是进行发布 将其安全补丁添加到私有云环境中的一周内 。

当有新的主要版本的 VMware 软件可用时,VMware Engine 会与客户合作,协调应用升级的适当维护期。VMware Engine 适用 在主要版本发布至少六个月后升级主要版本 在应用主要版本升级前一个月通知客户。

VMware Engine 还与主要行业供应商合作,以确保在发布主要版本升级之前支持最新的 VMware 软件版本。如需了解特定供应商的支持服务,请与 Cloud Customer Care 团队联系

证书更新责任

证书更新由 Google 负责。如果您收到证书更新错误,则无需执行任何操作,证书会在到期前续订。不过,如果您在私有云中配置了 LDAPS, 对与此错误相关的特定证书承担全部责任。

准备工作

Google 建议您在开始更新或升级之前做好以下准备:

  • 检查存储空间容量:确保 vSphere 集群的存储空间利用率低于 80% 以维持服务等级协议 (SLA)。如果利用率高于 80%,则升级过程可能需要比正常情况更长的时间,也可能完全失败。如果您的存储空间利用率高于 70%, 添加节点以扩展集群并避免任何可能出现 停机维护时间
  • 更改 FTT 为 0 的 vSAN 存储政策:更改配置了 “无法容忍”(FTT) 的 vSAN 存储政策为 0 到 vSAN 存储 政策并将 FTT 设为 1,以保持服务等级协议 (SLA)。
  • 移除虚拟机 CD 装载:移除在工作负载虚拟机上装载的任何与 vMotion 不兼容的 CD。
  • 完成 VMware 工具安装:完成所有安装或 在计划升级开始之前进行 VMware 工具升级。
  • 移除虚拟机上的 SCSI 总线共享:如果您不希望关闭虚拟机的电源,请移除虚拟机上的 SCSI 总线共享。
  • 移除无法访问的虚拟机和数据存储区:从 vCenter 库存中移除未使用的虚拟机和无法访问的虚拟机。移除所有无法访问的外部数据存储区。
  • 停用分布式资源调度器 (DRS) 规则:将虚拟机固定到主机的 DRS 规则会阻止节点进入维护模式。您可以停用 DRS 规则,并在升级后启用这些规则 。
  • 更新 VMware 插件和第三方解决方案:验证 VMware 私有云 vCenter 中部署的插件和第三方解决方案 与前面提到的升级后版本兼容。工具示例包括用于备份、监控、灾难恢复编排和其他类似功能的工具。请与解决方案供应商联系并提前更新 以便确保升级后的兼容性。

可能会影响维护流程的配置

VMware Engine 利用 VMware 的维护模式执行升级、更新和节点维护。这有助于确保您的私有云工作负载持续运行。不过,以下配置 需要执行额外的步骤,之后节点才能进入维护模式:

  • DRS 规则:强制虚拟机留在特定节点上的 MUST 规则。
  • SCSI 总线共享:配置为共享 SCSI 总线的虚拟机。
  • CD-ROM 挂载:已连接 CD-ROM 的虚拟机,尤其是无法使用 vMotion 将这些 CD-ROM 移至其他节点的虚拟机。
  • 串行端口连接:使用串行端口连接的虚拟机,这会导致无法使用 vMotion 将其迁移到其他节点。
  • 原始设备映射 (RDM):直接访问物理存储空间的虚拟机 设备。

如有必要采取行动

如果节点上存在其中任何配置,Cloud Customer Care 会通知您 至少需要 24 小时,才能采取维护 私有云的可用性在某些情况下,关闭虚拟机并使用 vMotion 将其移动到其他位置,然后再开机,或者移除 CD-ROM 等步骤可能会暂时中断您的工作负载。

后续步骤