排查 GKE 问题

Autopilot Standard

本页面列出了问题排查页面，其中介绍了您在使用 Google Kubernetes Engine (GKE) 时可能会遇到的常见问题。本页面适用于负责排查 GKE 配置问题的管理员和架构师、安全专家、网络专家或存储专家。如需详细了解 GKE 角色，请参阅常见的 GKE 用户角色和任务。

如果您刚开始接触 GKE 问题排查，或者想大致了解基本工具和技巧，请先阅读问题排查简介。

如需诊断和解决在使用 GKE 基础设施的各个阶段遇到的问题，请参阅以下部分：

您还可以通过本页面访问更通用的问题排查主题：

如需排查 GKE 网络问题，请参阅 GKE 网络文档中的排查 GKE 网络问题部分。

问题排查简介

主题	说明
GKE 问题排查简介	首先了解总体流程和基本概念，以便开始排查 GKE 问题。
查看服务健康状况和突发事件	了解如何检查 GKE 和相关 Google Cloud 服务的健康状况，以排除平台问题。
在 Google Cloud 控制台中评估集群和工作负载的健康状况	了解如何使用 Google Cloud 控制台调查和解决 GKE 问题。
使用 `kubectl` 调查集群状态	探索用于诊断集群和工作负载中问题的常见 `kubectl` 命令和技巧。
使用 Cloud Logging 进行历史分析	了解如何有效使用 Cloud Logging 查找 GKE 中问题的根本原因。
使用 Cloud Monitoring 执行主动监控	利用 Cloud Monitoring 信息中心和指标来识别、诊断和解决 GKE 问题。
借助 Gemini Cloud Assist 加快诊断速度	了解 Gemini 如何协助诊断和解决 GKE 问题。
综合应用：问题排查场景示例	按照分步示例排查 GKE 中的常见场景。

主题	说明
创建集群	解决创建集群时的问题。
Autopilot 集群	诊断和排查 GKE Autopilot 集群问题，包括集群创建、命名空间删除、扩缩和工作负载问题。
Kubectl 命令行工具	排查 GKE 中 `kubectl` 命令行工具的问题，包括身份验证、授权问题。本页面还包含有关如何排查 Konnectivity 代理问题的建议，以检查该代理是否导致 `kubectl logs`、`attach`、`exec` 或 `port-forward` 命令停止响应。
Standard 节点池	排查 GKE Standard 节点池的问题，包括节点池创建、尽力而为的预配、损坏的实例元数据以及将工作负载迁移到新节点池的问题。
节点注册	排查将节点添加到 GKE Standard 集群时发生的问题，例如节点注册失败以及缺少成功注册节点的前提条件。
容器运行时	排查 GKE 中的容器运行时问题，包括 `containerd` 和 `dockershim` 以及私有注册表的问题。

主题	说明
集群自动扩缩器未缩容	诊断并解决集群未移除利用率不足的节点的常见原因。了解如何检查是否存在限制性 `PodDisruptionBudgets`、具有本地存储的 Pod 或阻止节点逐出的特定注释（例如 `"cluster-autoscaler.kubernetes.io/safe-to-evict": "false"`）等问题。
集群自动扩缩器未扩容	了解集群自动扩缩器为何未添加新节点来满足需求。检查是否存在无法调度的 Pod，验证是否已达到集群或节点池大小限制，并确定潜在的资源配额或区域虚拟机可用性问题。
Pod 横向自动扩缩	排查 Pod 横向自动扩缩器无法扩缩应用 Pod 副本的问题。解决常见问题，例如 HorizontalPodAutoscaler 对象配置错误或指标流水线存在问题。

主题	说明
存储	排查存储问题，包括区域级永久性磁盘、磁盘性能和卷扩展的问题。

主题	说明
Authentication	排查 GKE 中的身份验证问题，包括 RBAC、Workload Identity Federation for GKE 和 GKE 元数据服务器的问题。
服务账号	排查服务账号问题，包括恢复默认服务账号和启用 Compute Engine 默认服务账号。
应用层 Secret	排查配置应用层 Secret 加密时可能出现的问题，包括更新失败和错误，导致无法使用 Cloud KMS 密钥或 Cloud KMS 密钥版本被销毁。

主题	说明
根证书授权机构 (CA) 即将过期	如果集群的根证书授权机构 (CA) 即将过期，请了解如何执行凭证变换，以防止正常的集群操作中断。

主题	说明
已部署的工作负载	排查在 GKE 集群中运行的工作负载的错误，包括 `PodUnschedulable`。请参阅 PodUnschedulable 部分，了解针对 `MatchNodeSelector` 和 `Does not have minimum availability` 等错误提出的建议。
图片拉取	排查映像拉取问题。了解导致 `ImagePullBackOff` 和 `ErrImagePull` 等状态的原因，以及如何通过解决身份验证和网络连接等常见问题来解决这些状态。
CrashLoopBackOff 事件	排查 GKE 中的 `CrashLoopBackOff` 事件。诊断资源耗尽、应用配置错误和活跃探测失败等问题。
OOM 事件	排查 Kubernetes 内存不足 (OOM) 事件问题。确定原因、区分事件类型，并针对容器级和节点级 OOM 终止应用有效的解决方案。
Arm 工作负载	排查 Arm 工作负载的问题，包括 Arm 节点上的 Pod 崩溃。
TPU	排查 TPU 问题，包括配额、节点自动预配、工作负载配置和调度的问题。
GPU 数量	排查 GPU 问题，包括 GPU 驱动程序安装、设备插件错误和容器映像的问题。

主题	说明
集群升级	排查并解决 GKE 集群和节点升级问题，包括升级时间过长或不完整、意外的自动升级、升级失败以及升级后出现的问题。
网络钩子	了解如何在使用准入 webhook 时排查集群控制平面问题并确保其稳定性。
命名空间卡在 `Terminating` 状态	通过识别并移除阻止删除的运行不正常的组件，排查命名空间卡在 `Terminating` 状态的问题。
并发操作	通过了解如何识别这些错误排查并发操作问题，然后通过等待操作完成来解决这些问题。

主题	说明
系统指标	排查系统指标未显示在 Cloud Monitoring 中的问题。
监控信息中心	排查监控信息中心的问题，包括启用监控功能、缺少 Kubernetes 资源和权限的问题。
Logging	排查日志记录问题，包括启用日志记录功能、缺少日志和配额的问题。

主题	说明
4xx 错误	排查使用 GKE 时可能遇到的一些 400、401、403 和 404 错误。本页面还包含有关如何排查账号缺少修改权限错误的信息。

主题	说明
已知问题	发现并解决可能影响 GKE 使用的已知问题。

如果您在文档中找不到问题的解决方案，请参阅获取支持以获取进一步的帮助，包括以下主题的建议：
- 请与 Cloud Customer Care 联系，以提交支持请求。
- 通过在 StackOverflow 上提问并使用 google-kubernetes-engine 标记搜索类似问题，从社区获得支持。您还可以加入 #kubernetes-engine Slack 频道，以获得更多社区支持。
- 使用公开问题跟踪器提交 bug 或功能请求。