本文档中介绍的产品 GKE on Azure 现已进入维护模式，并将于 2027 年 3 月 17 日关停。

GKE on Azure 中的正常节点关停

从 1.26 版开始，GKE on Azure 会自动启用正常节点关停。此功能可以管理节点关停期间 Pod 的正常终止。正常终止可让 Pod 保存其状态，并在节点关停之前释放资源。这种终止 Pod 的方法可最大限度地降低数据丢失的风险。它还可以最大程度地减少其他 Pod 以及依赖于被关停的 Pod 或与这些 Pod 交互的服务中断的风险，从而增强集群的弹性。

工作原理

预定维护、节点扩缩或硬件问题等事件会触发节点关停。kubelet kubelet 组件会检测事件，并指示 systemd 将系统关停延迟指定时长，从而启动正常节点终止过程。此延迟使节点有时间排空和逐出其上运行的 Pod。

正常节点终止的目标是在节点关停之前正常终止非系统和关键系统 Pod。系统会使用以下默认设置：

ShutdownGracePeriod：30 秒
ShutdownGracePeriodCriticalPods：15 秒

这些设置会为非系统 Pod 在强制停止之前提供 15 秒的时间来正常终止。关键系统 Pod 在非系统 Pod 终止后有 15 秒的时间来关停。但是，由于该功能会尽最大努力运行，因此节点可能无法在指定的 30 秒内正常关停。

触发器和限制

触发正常节点关停的事件包括计划内事件，如下所示：

用户发起的关停
终止实例
计划性维护
缩减集群

在这些情况下，kubelet 会检测节点关停事件并启动正常节点关停过程。

相比之下，如果关停命令不会触发 kubelet 组件所依赖的 systemd 抑制器锁定机制，则无法激活正常节点关停。此类情况的示例包括：

网络断开连接
硬件故障
资源（例如内存或 CPU）不足
意外停电。

在这些情况下，节点可能会突然关停，从而可能导致中断或数据丢失。