排查 GKE 问题

Autopilot Standard

本页面列出了问题排查页面，其中介绍了您在使用 Google Kubernetes Engine (GKE) 时可能会遇到的常见问题。本页面适用于负责排查 GKE 配置问题的管理员和架构师、安全专家、网络专家或存储专家。如需详细了解 GKE 角色，请参阅常见的 GKE 用户角色和任务。

如果您刚开始接触 GKE 问题排查，或者想大致了解基本工具和技巧，请先阅读问题排查简介。

如需诊断和解决在使用 GKE 基础设施的各个阶段遇到的问题，请参阅以下部分：

您还可以通过本页面访问更通用的问题排查主题：

如需排查 GKE 网络问题，请参阅 GKE 网络文档中的排查 GKE 网络问题部分。

问题排查简介

主题	说明
GKE 问题排查简介	首先了解如何通过使用核心工具诊断和解决问题，来排查 GKE 问题。

主题	说明
创建集群	解决创建集群时的问题。
Autopilot 集群	诊断和排查 GKE Autopilot 集群问题，包括集群创建、命名空间删除、扩缩和工作负载问题。
Kubectl 命令行工具	排查 GKE 中 `kubectl` 命令行工具的问题，包括身份验证、授权问题。本页面还包含有关如何排查 Konnectivity 代理问题的建议，以检查该代理是否导致 `kubectl logs`、`attach`、`exec` 或 `port-forward` 命令停止响应。
Standard 节点池	排查 GKE Standard 节点池的问题，包括节点池创建、尽力而为的预配、损坏的实例元数据以及将工作负载迁移到新节点池的问题。
节点注册	排查将节点添加到 GKE Standard 集群时发生的问题，例如节点注册失败以及缺少成功注册节点的前提条件。
容器运行时	排查 GKE 中的容器运行时问题，包括 `containerd` 和 `dockershim` 以及私有注册表的问题。

主题	说明
存储	排查存储问题，包括区域级永久性磁盘、磁盘性能和卷扩展的问题。

主题	说明
Authentication	排查 GKE 中的身份验证问题，包括 RBAC、Workload Identity Federation for GKE 和 GKE 元数据服务器的问题。
服务账号	排查服务账号问题，包括恢复默认服务账号和启用 Compute Engine 默认服务账号。
应用层 Secret	排查配置应用层 Secret 加密时可能出现的问题，包括更新失败和错误，导致无法使用 Cloud KMS 密钥或 Cloud KMS 密钥版本被销毁。

主题	说明
根证书授权机构 (CA) 即将过期	如果集群的根证书授权机构 (CA) 即将过期，请了解如何执行凭证变换，以防止正常的集群操作中断。

主题	说明
已部署的工作负载	排查在 GKE 集群中运行的工作负载的错误，包括 `PodUnschedulable`。请参阅 PodUnschedulable 部分，了解针对 `MatchNodeSelector` 和 `Does not have minimum availability` 等错误提出的建议。
图片拉取	排查映像拉取问题。了解导致 `ImagePullBackOff` 和 `ErrImagePull` 等状态的原因，以及如何通过解决身份验证和网络连接等常见问题来解决这些状态。
CrashLoopBackOff 事件	排查 GKE 中的 `CrashLoopBackOff` 事件。诊断资源耗尽、应用配置错误和活跃探测失败等问题。
OOM 事件	排查 Kubernetes 内存不足 (OOM) 事件问题。确定原因、区分事件类型，并针对容器级和节点级 OOM 终止应用有效的解决方案。
Arm 工作负载	排查 Arm 工作负载的问题，包括 Arm 节点上的 Pod 崩溃。
TPU	排查 TPU 问题，包括配额、节点自动预配、工作负载配置和调度的问题。
GPU 数量	排查 GPU 问题，包括 GPU 驱动程序安装、设备插件错误和容器映像的问题。

主题	说明
升级	排查 GKE 集群升级的问题，例如控制平面升级后 `kube-apiserver` 健康状况不佳，或者升级后工作负载被逐出。
网络钩子	了解如何在使用准入 webhook 时排查集群控制平面问题并确保其稳定性。
命名空间卡在 `Terminating` 状态	通过识别并移除阻止删除的运行不正常的组件，排查命名空间卡在 `Terminating` 状态的问题。
并发操作	通过了解如何识别这些错误排查并发操作问题，然后通过等待操作完成来解决这些问题。

主题	说明
系统指标	排查系统指标未显示在 Cloud Monitoring 中的问题。
监控信息中心	排查监控信息中心的问题，包括启用监控功能、缺少 Kubernetes 资源和权限的问题。
Logging	排查日志记录问题，包括启用日志记录功能、缺少日志和配额的问题。

主题	说明
4xx 错误	排查使用 GKE 时可能遇到的一些 400、401、403 和 404 错误。本页面还包含有关如何排查账号缺少修改权限错误的信息。

主题	说明
已知问题	发现并解决可能影响 GKE 使用的已知问题。

如果您在文档中找不到问题的解决方案，请参阅获取支持以获取进一步的帮助，包括以下主题的建议：
- 请与 Cloud Customer Care 联系，以提交支持请求。
- 通过在 StackOverflow 上提问并使用 google-kubernetes-engine 标记搜索类似问题，从社区获得支持。您还可以加入 #kubernetes-engine Slack 频道，以获得更多社区支持。
- 使用公开问题跟踪器提交 bug 或功能请求。