Se usó la API de Cloud Translation para traducir esta página.

Soluciona problemas de GKE

Autopilot estándar

En esta página, se enumeran las páginas de solución de problemas para los problemas comunes que puedes encontrar cuando usas Google Kubernetes Engine (GKE). Esta página está dirigida a administradores y arquitectos, especialistas en seguridad, especialistas en redes o especialistas en almacenamiento que solucionan problemas de configuraciones de GKE. Para obtener más información sobre los roles de GKE, consulta Roles y tareas comunes de los usuarios de GKE.

Si no tienes experiencia en la solución de problemas en GKE o deseas obtener una descripción general de alto nivel de las herramientas y técnicas fundamentales, comienza con la Introducción a la solución de problemas.

Para diagnosticar y resolver los problemas que encuentres en las distintas etapas de trabajo con tu infraestructura de GKE, consulta las siguientes secciones:

Configuración del clúster
Ajuste de escala automático
Almacenamiento
Seguridad del clúster
Cargas de trabajo
Administración de clústeres
Supervisión

En esta página, también se proporciona acceso a temas más generales sobre la solución de problemas:

Errores 4xx
Problemas conocidos

Para solucionar problemas de redes de GKE, consulta Soluciona problemas de redes de GKE en la documentación de redes de GKE.

Introducción a la solución de problemas

Tema	Descripción
Introducción a la solución de problemas de GKE	Comienza a solucionar problemas de GKE aprendiendo sobre el proceso general y los conceptos fundamentales.
Revisa el estado y los incidentes del servicio	Aprende a verificar el estado de GKE y los Google Cloud servicios relacionados para descartar problemas de la plataforma.
Evalúa el estado del clúster y la carga de trabajo en la Google Cloud consola	Aprende a usar la consola de Google Cloud para investigar y resolver problemas de GKE.
Investiga el estado de un clúster con `kubectl`	Explora los comandos y las técnicas comunes de `kubectl` para diagnosticar problemas en tus clústeres y cargas de trabajo.
Realiza análisis históricos con Cloud Logging	Comprender cómo usar Cloud Logging de manera eficaz para encontrar las causas raíz de los problemas en GKE
Realiza una supervisión proactiva con Cloud Monitoring	Utiliza los paneles y las métricas de Cloud Monitoring para identificar, diagnosticar y resolver problemas de GKE.
Acelera el diagnóstico con Gemini Cloud Assist	Descubre cómo Gemini puede ayudarte a diagnosticar y resolver problemas de GKE.
Combina toda la información: Situación de ejemplo para solucionar problemas	Sigue un ejemplo paso a paso para solucionar un problema habitual en GKE.

Configuración del clúster

Tema	Descripción
Creación del clúster	Resuelve problemas relacionados con la creación de clústeres.
Clústeres de Autopilot	Diagnosticar y solucionar problemas de los clústeres de Autopilot de GKE, incluidos los problemas relacionados con la creación de clústeres, la eliminación de espacios de nombres, el escalamiento y las cargas de trabajo
Herramienta de línea de comandos de Kubectl	Soluciona problemas de la herramienta de línea de comandos de `kubectl` en GKE, incluidos los problemas de autenticación y autorización. En esta página, también se incluye asesoramiento para solucionar problemas del proxy de Konnectivity y verificar si está provocando que los comandos `kubectl logs`, `attach`, `exec` o `port-forward` dejen de responder.
Grupos de nodos estándar	Soluciona problemas de grupos de nodos de GKE Standard, incluidos los problemas relacionados con la creación de grupos de nodos, el aprovisionamiento de mejor esfuerzo, los metadatos de instancias dañados y la migración de cargas de trabajo a grupos de nodos nuevos.
Registro de nodos	Soluciona problemas que ocurren cuando agregas nodos a tu clúster de GKE Standard, como errores de registro de nodos y requisitos previos faltantes para el registro correcto de nodos.
Entorno de ejecución del contenedor	Soluciona problemas de tiempos de ejecución de contenedores en GKE, incluidos los problemas con `containerd` y `dockershim`, y los registros privados.

Ajuste de escala automático

Tema	Descripción
El escalador automático de clústeres no reduce la escala verticalmente	Diagnostica y resuelve los motivos comunes por los que tu clúster no quita los nodos subutilizados. Obtén información para verificar si hay problemas, como `PodDisruptionBudgets` restrictivos, Pods con almacenamiento local o anotaciones específicas (por ejemplo, `"cluster-autoscaler.kubernetes.io/safe-to-evict": "false"`) que impiden el desalojo de nodos.
El escalador automático de clústeres no aumenta la escala verticalmente	Obtén información sobre por qué el escalador automático de clústeres no agrega nodos nuevos para satisfacer la demanda. Comprueba si hay Pods que no se pueden programar, verifica que no hayas alcanzado los límites de tamaño del clúster o del grupo de nodos, y detecta posibles problemas de cuota de recursos o disponibilidad regional de VM.
Ajuste automático de escala horizontal de Pods	Soluciona problemas relacionados con el Horizontal Pod Autoscaler que no escala las réplicas de Pod de tu aplicación. Resuelve problemas habituales, como objetos HorizontalPodAutoscaler mal configurados o problemas con la canalización de métricas.

Almacenamiento

Tema	Descripción
Almacenamiento	Soluciona problemas de almacenamiento, incluidos los relacionados con los discos persistentes regionales, el rendimiento del disco y la expansión del volumen.

Seguridad del clúster

Tema	Descripción
Authentication	Soluciona problemas de autenticación en GKE, incluidos los problemas con RBAC, Workload Identity Federation for GKE y el servidor de metadatos de GKE.
Cuentas de servicio	Soluciona problemas relacionados con las cuentas de servicio, incluida la restauración de la cuenta de servicio predeterminada y la habilitación de la cuenta de servicio predeterminada de Compute Engine.
Secretos de la capa de la aplicación	Soluciona problemas que pueden ocurrir cuando configuras la encriptación de Secrets a nivel de la aplicación, incluidas las actualizaciones fallidas y los errores en los que no puedes usar una clave de Cloud KMS o en los que se destruyó la versión de la clave de Cloud KMS.

La autoridad de certificación raíz del clúster vencerá pronto

Tema	Descripción
Vencimiento de la autoridad certificadora (CA) raíz	Si la autoridad certificadora (CA) raíz de tu clúster vencerá pronto, consulta cómo realizar una rotación de credenciales para evitar que se interrumpan las operaciones normales del clúster.

Cargas de trabajo

Tema	Descripción
Cargas de trabajo implementadas	Soluciona problemas de errores de cargas de trabajo que se ejecutan en un clúster de GKE, incluidos `PodUnschedulable`. Lee la sección PodUnschedulable para obtener sugerencias sobre errores como `MatchNodeSelector` y `Does not have minimum availability`.
Extracciones de imágenes	Soluciona problemas de extracción de imágenes. Obtén información sobre las causas de los estados como `ImagePullBackOff` y `ErrImagePull` y cómo resolverlos corrigiendo problemas comunes, como la autenticación y la conectividad de red.
Eventos de CrashLoopBackOff	Soluciona problemas relacionados con eventos de `CrashLoopBackOff` en GKE. Diagnostica problemas como el agotamiento de recursos, la configuración incorrecta de la app y las fallas de los sondeos de funcionamiento.
Eventos de OOM	Soluciona problemas relacionados con eventos de memoria insuficiente (OOM) de Kubernetes. Identifica las causas, distingue los tipos de eventos y aplica soluciones eficaces para los cierres por OOM a nivel del contenedor y del nodo.
Cargas de trabajo de Arm	Soluciona problemas con cargas de trabajo de Arm, incluidos los Pods en nodos Arm que fallan.
TPUs	Soluciona problemas relacionados con las TPU, incluidos los problemas de cuota, el aprovisionamiento automático de nodos, la configuración de cargas de trabajo y la programación.
GPU	Soluciona problemas relacionados con las GPUs, incluidos los problemas con la instalación de controladores de GPU, los errores de complementos de dispositivos y las imágenes de contenedores.

Administración de clústeres

Tema	Descripción
Actualizaciones de clústeres	Soluciona problemas y resuelve inconvenientes relacionados con las actualizaciones de clústeres y nodos de GKE, incluidas las actualizaciones largas o incompletas, las actualizaciones automáticas inesperadas, las fallas y los problemas posteriores a la actualización.
Webhooks	Comprende cómo solucionar problemas y garantizar la estabilidad del plano de control de tu clúster cuando usas webhooks de admisión.
Espacio de nombres atascado en el estado `Terminating`	Soluciona problemas relacionados con espacios de nombres atrapados en el estado `Terminating`. Para ello, identifica y quita los componentes en mal estado que bloquean la eliminación.
Operaciones simultáneas	Soluciona problemas de operaciones simultáneas. Para ello, aprende a identificar estos errores y a resolverlos esperando a que se completen las operaciones.

Supervisión

Tema	Descripción
Métricas del sistema	Soluciona problemas relacionados con las métricas del sistema que no aparecen en Cloud Monitoring.
Paneles de Monitoring	Soluciona problemas de los paneles de supervisión, incluidos los problemas relacionados con la habilitación de la supervisión, la falta de recursos de Kubernetes y los permisos.
Logging	Soluciona problemas de registro, incluidos los problemas para habilitar el registro, los registros faltantes y las cuotas.

Errores 4xx

Tema	Descripción
Errores 4xx	Soluciona algunos de los errores 400, 401, 403 y 404 que podrías encontrar cuando uses GKE. En esta página, también se incluye información para solucionar errores relacionados con la falta de permisos de edición en la cuenta.

Problemas conocidos

Tema	Descripción
Problemas conocidos	Identifica y resuelve los problemas conocidos que podrían afectar tu uso de GKE.

¿Qué sigue?

Si no encuentras una solución a tu problema en la documentación, consulta Obtener asistencia para obtener más ayuda, como asesoramiento en los siguientes temas:
- Comunicarse con Atención al cliente de Cloud para abrir un caso de asistencia.
- Hacer preguntas en StackOverflow para obtener asistencia de la comunidad y usar la etiqueta google-kubernetes-engine para buscar problemas similares. También puedes unirte al canal de Slack #kubernetes-engine para obtener más Asistencia de la comunidad.
- Abrir errores o solicitudes de funciones con la herramienta de seguimiento de errores pública.