排查 GKE Standard 节点池问题

标准

在管理 Google Kubernetes Engine (GKE) Standard 集群时，节点池出现问题可能会中断关键操作。这些问题可能会导致您无法扩缩工作负载来满足需求，也无法执行必要的基础设施升级，进而影响应用的可靠性。

您可在此页面上排查这些常见的节点池问题。了解相关指南，以确认您是否资源不足，使用尽力预配等功能来创建节点，并安全地迁移工作负载，而不会造成中断。

对于负责管理集群基础设施的平台管理员和运维人员，此信息非常重要。对于需要了解节点池限制可能对其应用部署产生何种影响的应用开发者，此功能也很有用。如需详细了解我们在 Google Cloud 内容中提及的常见角色和示例任务，请参阅常见的 GKE 用户角色和任务。

节点池创建问题

本部分列出了在 Standard 集群中创建新节点池时可能出现的问题，并提供了有关如何解决这些问题的建议。

问题：节点池创建失败，原因是资源不足

当您在某个 Google Cloud 可用区中创建使用特定硬件的节点池，并且该可用区没有足够的硬件来满足您的要求时，会发生以下问题。

如需验证节点池创建是否由于某个可用区没有足够的资源而失败，请查看日志中是否有相关错误消息。

在 Google Cloud 控制台中前往 Logs Explorer。

转到 Logs Explorer

在查询字段中，指定以下查询：

log_id(cloudaudit.googleapis.com/activity)
resource.labels.cluster_name="CLUSTER_NAME"
protoPayload.status.message:("ZONE_RESOURCE_POOL_EXHAUSTED" OR "does not have enough resources available to fulfill the request" OR "resource pool exhausted" OR "does not exist in zone")

将 CLUSTER_NAME 替换为 GKE 集群的名称。

点击运行查询。

您可能会看到以下某条错误消息：

resource pool exhausted
The zone does not have enough resources available to fulfill the request. Try a different zone, or try again later.
ZONE_RESOURCE_POOL_EXHAUSTED
ZONE_RESOURCE_POOL_EXHAUSTED_WITH_DETAILS
Machine type with name 'MACHINE_NAME' does not exist in zone 'ZONE_NAME'

如需解决此问题，请尝试以下建议：

确保所选 Google Cloud 区域或可用区具有您需要的特定硬件。使用 Compute Engine 可用性表检查特定可用区是否支持特定硬件。为节点选择满足您需要的硬件可用性的其他Google Cloud 区域或可用区。
创建具有较小机器类型的节点池。增加节点池中的节点数，以使总计算容量保持不变。
使用 Compute Engine 容量预留提前预留资源。
使用下文介绍的尽力而为的预配功能，只要 GKE 能够至少预配指定的最小节点数，即使未满足请求的数量，也能成功创建节点池。

尽力而为的预配

对于某些硬件，您可以使用“尽力而为的预配”，该功能指示 GKE 在至少能够预配指定的最小节点数的情况下即可成功创建节点池。在接下来的一段时间内，GKE 会继续尝试预配其余节点以满足原始请求。如需指示 GKE 使用尽力而为的预配，请使用以下命令：

gcloud container node-pools create NODE_POOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --node-locations=ZONE1,ZONE2,... \
    --machine-type=MACHINE_TYPE
    --best-effort-provision \
    --min-provision-nodes=MINIMUM_NODES

请替换以下内容：

NODE_POOL_NAME：新节点池的名称。
CONTROL_PLANE_LOCATION：集群控制平面的 Compute Engine 位置。为区域级集群提供区域，或为可用区级集群提供可用区。
ZONE1,ZONE2,...：节点的 Compute Engine 可用区。这些可用区必须支持所选的硬件。
MACHINE_TYPE：节点的 Compute Engine 机器类型。例如 a2-highgpu-1g。
MINIMUM_NODES：GKE 预配的最小节点数，只要满足该数量即可成功创建节点池。如果省略，则默认为 1。

例如，设想这样一个场景，您需要在 us-central1-c 中有 10 个挂接 NVIDIA A100 40GB GPU 的节点。根据 GPU 区域和可用区可用性表，此可用区支持 A100 GPU。为了避免在没有 10 个 GPU 机器可用时节点池创建失败，您可以使用尽力而为的预配。

gcloud container node-pools create a100-nodes \
    --cluster=ml-cluster \
    --location=us-central1 \
    --node-locations=us-central1-c \
    --num-nodes=10 \
    --machine-type=a2-highgpu-1g \
    --accelerator=type=nvidia-tesla-a100,count=1 \
    --best-effort-provision \
    --min-provision-nodes=5

即使 us-central1-c 中只有 5 个 GPU 可用，GKE 也会创建节点池。在随后的一段时间内，GKE 会尝试预配更多节点，直到节点池中有 10 个节点为止。

错误：实例不包含“instance-template”元数据

如果节点池升级、扩缩或执行自动节点修复失败，您可能会看到以下错误：

Instance INSTANCE_NAME does not contain 'instance-template' metadata

此错误表示由 GKE 分配的虚拟机实例的元数据已损坏。这种情况通常发生在自定义编写的自动化脚本或脚本尝试添加新的实例元数据（例如 block-project-ssh-keys）时，不仅会添加或更新值，还会删除现有元数据。如需了解虚拟机实例元数据，请参阅设置自定义元数据。

如果删除任何关键元数据值（以及其他值：instance-template、kube-labels、kubelet-config、kubeconfig、cluster-name、configure-sh、cluster-uid），则节点或整个节点池可能会自行呈现不稳定状态，因为这些值对于 GKE 操作至关重要。

如果实例元数据已损坏，我们建议您通过重新创建包含损坏的虚拟机实例的节点池来恢复元数据。您需要向集群添加节点池，并增加新节点池的节点数，同时隔离并移除另一个节点池中的节点。请参阅在节点池之间迁移工作负载的说明。

如需了解谁在何时修改了实例元数据，您可以查看 Compute Engine 审核日志记录信息，也可以使用 Logs Explorer 并输入类似于以下内容的搜索查询来查找日志：

resource.type="gce_instance_group_manager"
protoPayload.methodName="v1.compute.instanceGroupManagers.setInstanceTemplate"

您可以在日志中找到请求发起者 IP 地址和用户代理。例如：

requestMetadata: {
  callerIp: "REDACTED"
  callerSuppliedUserAgent: "google-api-go-client/0.5 GoogleContainerEngine/v1"
}

在节点池之间迁移工作负载

请按照以下说明将工作负载从一个节点池迁移到另一个节点池。如果要更改节点池中节点的机器属性，请参阅通过更改节点机器属性进行纵向扩缩。

了解如何将 Pod 迁移到新节点池

如需将 Pod 迁移到新节点池，您必须执行以下操作：

封锁现有节点池中的节点：此操作会将现有节点池中的节点标记为不可调度。将它们标记为无法安排后，Kubernetes 会停止将新 Pod 安排到这些节点。
排空现有节点池中的节点：此操作会正常逐出正在现有节点池的节点上运行的工作负载。

这些步骤会导致在现有节点池中运行的 Pod 正常终止，您需要针对每个节点单独执行这些步骤。Kubernetes 会将它们重新安排到其他可用的节点上。

为了确保 Kubernetes 正常终止您的应用，容器应该处理 SIGTERM 信号。使用此方法可以关闭与客户端的活跃连接，并干净地提交或回滚数据库事务。在 Pod 清单中，您可以使用 spec.terminationGracePeriodSeconds 字段指定 Kubernetes 必须等待多长时间才能停止 Pod 中的容器。默认值为 30 秒。您可以在 Kubernetes 文档中详细了解终止 Pod。

您可以使用 kubectl cordon 和 kubectl drain 命令封锁和排空节点。

创建节点池并迁移工作负载

如需将工作负载迁移到新节点池，请创建新的节点池，然后封锁并排空现有节点池中的节点：

向集群添加节点池。

通过运行以下命令来验证新节点池已创建：
```
gcloud container node-pools list --cluster CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION
```
替换以下内容：
- CLUSTER_NAME：集群的名称。
- CONTROL_PLANE_LOCATION：集群控制平面的 Compute Engine 位置。为区域级集群提供区域，或为可用区级集群提供可用区。
注意：如果您创建的节点池启用了集群自动扩缩器，并且您在创建新节点池后等待超过 10 分钟以耗尽现有节点池，集群自动扩缩器可能会缩减新节点池中的节点，因为它们未充分利用。在这种情况下，如果 Pod 只能在新节点池上运行，那么在新的节点池扩容时，重新调度 Pod 会有所延迟。如需了解详情，请参阅集群自动扩缩器的工作原理。

如需停用现有节点池的自动扩缩功能（如果已启用），请运行以下命令：

gcloud container clusters update CLUSTER_NAME
    --location=CONTROL_PLANE_LOCATION \
    --no-enable-autoscaling \
    --node-pool=EXISTING_NODE_POOL_NAME

运行以下命令以查看 Pod 正在哪个节点上运行（请参阅 NODE 列）：
```
kubectl get pods -o=wide
```
获取现有节点池中的节点列表，并将 EXISTING_NODE_POOL_NAME 替换为名称：
```
kubectl get nodes -l cloud.google.com/gke-nodepool=EXISTING_NODE_POOL_NAME
```
运行 kubectl cordon NODE 命令（将 NODE 替换为上一个命令中的名称）。以下 shell 命令将遍历现有节点池中的每个节点，并将它们标记为无法安排：
```
for node in $(kubectl get nodes -l cloud.google.com/gke-nodepool=EXISTING_NODE_POOL_NAME -o=name); do
  kubectl cordon "$node";
done
```
（可选）更新现有节点池上运行的工作负载，以为标签 cloud.google.com/gke-nodepool:NEW_NODE_POOL_NAME 添加 nodeSelector，其中 NEW_NODE_POOL_NAME 是新节点池的名称。这可以确保 GKE 将这些工作负载放置在新节点池中的节点上。

通过在分配的正常终止时间段（10 秒）内逐出所有 Pod，排空每个节点：

for node in $(kubectl get nodes -l cloud.google.com/gke-nodepool=EXISTING_NODE_POOL_NAME -o=name); do
  kubectl drain --force --ignore-daemonsets --delete-emptydir-data --grace-period=GRACEFUL_TERMINATION_SECONDS  "$node";
done

将 GRACEFUL_TERMINATION_PERIOD_SECONDS 替换为正常终止所需的时间。

通过运行以下命令，确认现有节点池中的节点在节点列表中是否具有 SchedulingDisabled 状态：
```
kubectl get nodes
```
此外，您应该会看到 Pod 现正在新节点池中的节点上运行：
```
kubectl get pods -o=wide
```

如果您不再需要现有节点池，请将其删除：

gcloud container node-pools delete default-pool --cluster CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION

后续步骤

如果您在文档中找不到问题的解决方案，请参阅获取支持以获取进一步的帮助，包括以下主题的建议：
- 请与 Cloud Customer Care 联系，以提交支持请求。
- 通过在 StackOverflow 上提问并使用 google-kubernetes-engine 标记搜索类似问题，从社区获得支持。您还可以加入 #kubernetes-engine Slack 频道，以获得更多社区支持。
- 使用公开问题跟踪器提交 bug 或功能请求。