维护简介

本页介绍了 Memorystore for Valkey 如何对实例执行维护。本指南还提供了客户端应用应注意的信息和配置建议,以便加以利用 Memorystore for Valkey 的零停机维护设计。这些建议适用于高可用性实例和没有副本的实例。但是,我们强烈建议所有生产使用场景都使用高可用性配置。

Memorystore for Valkey 会定期更新实例,以确保服务可靠、高性能、安全且是最新版本。此类更新称为“维护”。维护完全由服务代管,旨在对停机造成零影响。

维护通常分为以下几个类别:

  • Memorystore 功能。为了发布某些功能,Memorystore 需要进行维护更新。
  • 操作系统补丁。我们会持续监控在操作系统中新发现的安全漏洞。发现漏洞后,我们会修补操作系统,以防范新风险。
  • 数据库补丁。维护可能包括 Valkey 更新,以提升 OSS Valkey 所能提供的实例安全性、性能和可靠性特性。

配置客户端应用

如需配置客户端应用,以便在维护期间尽可能实现最佳性能和可用性,请按以下步骤操作:

  1. 根据客户端最佳实践中的指南使用和配置您的第三方客户端,以确保任何计划维护都不会影响客户端应用。我们推荐的客户端配置可以通过定期内嵌拓扑刷新和后台连接轮替来避免连接重置。
  2. 在主要节点和副本节点上运行具有代表性的工作负载时,通过一系列更新操作(例如缩减或缩减、更改副本数量)来测试客户端应用,同时监控对客户端的影响。这些更新会测试客户端上的内嵌拓扑刷新逻辑、完全同步影响、新节点发现和现有节点移除功能。测试有助于确保第三方客户端配置正确,以免对您的应用产生任何负面影响。

计划性维护

Memorystore for Valkey 利用逐步部署和先创建后销毁生命周期策略,避免 Memorystore for Valkey 实例对停机造成任何影响。通过将 OSS Valkey 集群协议的请求重定向功能与以下 Memorystore 机制结合使用,可实现零停机维护:

  1. 在不丢失任何数据的情况下进行协调故障切换
  2. 优雅地移除节点,以便客户端能够及时跟上节点拓扑更新,而不会对可用性造成任何影响
  3. 实例的 PSC 端点不会受到维护影响。如需详细了解 PSC 端点,请参阅实例端点

以下部分介绍的服务行为仅适用于定期维护。如需了解硬件故障等非预期事件的影响,请参阅非预期故障转移期间的客户端行为

默认维护窗口

默认情况下,Memorystore 会根据实例的时区在以下窗口中更新实例:

  • 工作日时段(星期一至星期五):晚上 10 点至早上 6 点

  • 周末时段:星期五晚上 10 点至星期一早上 6 点

逐步部署策略

Memorystore for Valkey 部署的范围逐步扩大,并且有助于尽早进行故障检测,以降低影响并建立对稳定性的信心。在服务级别,系统会在 Memorystore 实例群集中集成烘烤时间(在系统将更新视为成功并继续操作之前,应用和监控更新所需的时间)。此外,bake 时间集成在一个区域内的各个可用区(多个故障域)内的实例中,以缩小影响范围(如果有)。

对于采用高可用性配置的实例,在任何给定时间最多只会更新一个故障网域/可用区,以确保实例分片(包括主实例和副本)在整个更新过程中始终具备高可用性。此外,在任何给定时间,只有几个 Valkey 节点会更新。更新使用创建前销毁生命周期机制来最大限度地提高实例稳定性。在更新具有多个分片的实例时,此策略可带来最大优势。在任何给定时间,仅将更新应用于整个用户键空间中的一小部分,即可最大限度地提高数据可用性。

“先创建、后销毁”生命周期策略

一个 Valkey 实例有多个分片。每个分片都有一个主节点和零个或多个副本节点。Memorystore 使用以下过程更新分片中任何现有的 Valkey 节点或副本节点:

  1. Memorystore for Valkey 会先向分片中添加一个包含最新软件更新的全新副本。Memorystore 会创建一个全新的节点,而不是更新现有节点,以确保在发生意外引导失败时保留预配的容量。
  2. 如果要更新的分片中有一个节点是主节点,系统会先将该节点转换为副本,然后再使用协调故障切换将其移除。
  3. Next Memorystore 会移除使用旧版软件的副本
  4. 系统会对实例中的每个节点重复此流程。

与典型的滚动部署相比,先创建再销毁策略有助于保留实例的预配容量,但典型的滚动部署会导致客户端应用中断可用性(有时会导致数据丢失)。对于没有副本的分片,Memorystore for Valkey 仍会先预配新副本,协调故障切换,最后替换分片的现有主节点。

第 1 步:添加 Valkey 副本

创建前销毁机制的第一步是使用完全同步 OSS Valkey 机制添加具有最新软件的副本节点,以将数据从主节点复制到副本节点。为此,系统会分叉子进程,并利用无磁盘复制来引导副本。

您可以通过预配更多分片来减少节点内的键空间大小,从而充分利用实例的水平扩缩架构。每个节点的数据集较小有助于减少完整同步操作对分叉延迟时间的影响。它还可以加快在节点之间复制数据的速度。

第 2 步:协调主副本故障切换

如果需要更新的 Valkey 节点是主节点,Memorystore 会先执行协调故障切换到新添加的副本节点,然后继续执行节点移除操作。在协调故障切换期间,客户端和 Valkey 节点会协同工作,并使用以下策略来避免应用出现停机:

  1. 主节点会暂时屏蔽传入的客户端请求,以便确保现有副本与主副本完全同步。
  2. 副本完成选举流程,接管主副本角色。
  3. 之前的主节点(现在是副本)取消屏蔽现有请求,并使用 OSS Valkey 集群协议将其重定向到新选择的主节点。发送到旧副本节点的所有新请求都会继续重定向到新的主节点。
  4. 支持 Valkey 的客户端将刷新其内存拓扑。它会学习新主端点的地址,而不再需要重定向。

协调的故障转移通常需要数十毫秒。但是,待向副本刷新的运行中数据以及实例的总大小会增加故障切换延迟时间。实例大小可能会影响主要节点之间的收敛,进而影响选择新的主实例的决策。

第 3 步:移除 Valkey 副本

“先创建后销毁”机制的最后一步是移除旧版软件上的副本节点。由于客户端会缓存端点信息和实例拓扑,因此突然移除节点会对客户端应用产生影响。Memorystore for Valkey 旨在妥善地移除 Valkey 副本,以允许客户端应用在遇到硬节点关停之前刷新其拓扑。拓扑是自定义的,使客户端能够了解新副本,但同时忘记要提前移除的副本。

运行旧版软件的副本节点会保留一段时间(通常为几分钟),在此期间,它会开始将传入的读取请求重定向到其分片的主节点。它允许第三方客户端刷新节点拓扑并了解新的副本端点。如果客户端在耗尽流量时段后尝试访问已移除的节点,则该尝试会失败,这反过来会触发连接客户端上的节点拓扑结构刷新,以便客户端了解副本更改。重新刷新节点拓扑后,系统不会看到要移除的副本节点。