Esta página se ha traducido con Cloud Translation API.

Solucionar problemas de GKE

Autopilot Standard

En esta página se enumeran las páginas para solucionar problemas habituales que pueden surgir al usar Google Kubernetes Engine (GKE). Esta página está dirigida a administradores, arquitectos, especialistas en seguridad, especialistas en redes o especialistas en almacenamiento que solucionan problemas de configuraciones de GKE. Para obtener más información sobre los roles de GKE, consulta Roles y tareas comunes de los usuarios de GKE.

Si no tienes mucha experiencia en la solución de problemas en GKE o quieres obtener una visión general de las herramientas y técnicas básicas, empieza con la introducción a la solución de problemas.

Para diagnosticar y resolver los problemas que surjan en las distintas fases de trabajo con tu infraestructura de GKE, consulta las siguientes secciones:

Configuración del clúster
Escalado automático
Almacenamiento
Seguridad del clúster
Cargas de trabajo
Gestión de clústeres
Monitorización

En esta página también se ofrece acceso a temas más generales sobre la solución de problemas:

Errores 4xx
Problemas conocidos

Para solucionar problemas de redes de GKE, consulta el artículo Solucionar problemas de redes de GKE de la documentación de redes de GKE.

Introducción a la solución de problemas

Tema	Descripción
Introducción a la solución de problemas de GKE	Para empezar a solucionar problemas de GKE, consulta el proceso general y los conceptos fundamentales.
Revisar el estado de los servicios y los incidentes	Consulta cómo comprobar el estado de GKE y los Google Cloud servicios relacionados para descartar problemas de la plataforma.
Evaluar el estado de los clústeres y las cargas de trabajo en la Google Cloud consola	Consulta cómo usar la Google Cloud consola para investigar y resolver problemas de GKE.
Investigar el estado de un clúster con `kubectl`	Consulta los comandos y las técnicas habituales de `kubectl` para diagnosticar problemas en tus clústeres y cargas de trabajo.
Realizar análisis históricos con Cloud Logging	Descubre cómo usar Cloud Logging de forma eficaz para encontrar las causas raíz de los problemas en GKE.
Monitorizar de forma proactiva con Cloud Monitoring	Utiliza los paneles de control y las métricas de Cloud Monitoring para identificar, diagnosticar y resolver problemas de GKE.
Acelerar el diagnóstico con Gemini Cloud Assist	Descubre cómo puede ayudarte Gemini a diagnosticar y resolver problemas de GKE.
Ponerlo todo en práctica: ejemplo de solución de problemas	Sigue un ejemplo detallado para solucionar un problema habitual en GKE.

Configuración del clúster

Tema	Descripción
Creación de clústeres	Soluciona problemas al crear clústeres.
Clústeres de Autopilot	Diagnostica y soluciona problemas de clústeres de Autopilot de GKE, como la creación de clústeres, la eliminación de espacios de nombres, el escalado y los problemas de cargas de trabajo.
Herramienta de línea de comandos kubectl	Soluciona problemas de la herramienta de línea de comandos `kubectl` en GKE, incluidos los problemas de autenticación y autorización. En esta página también se incluye información sobre cómo solucionar problemas del proxy de Konnectivity para comprobar si está provocando que los comandos `kubectl logs`, `attach`, `exec` o `port-forward` dejen de responder.
Grupos de nodos estándar	Soluciona problemas de grupos de nodos estándar de GKE, como problemas con la creación de grupos de nodos, el aprovisionamiento con el mejor esfuerzo, los metadatos de instancias dañados y la migración de cargas de trabajo a grupos de nodos nuevos.
Registro de nodos	Soluciona los problemas que se producen al añadir nodos a tu clúster de GKE Standard, como los fallos de registro de nodos y los requisitos previos que faltan para que el registro de nodos se realice correctamente.
Tiempo de ejecución del contenedor	Solucionar problemas de los tiempos de ejecución de contenedores en GKE, incluidos los problemas con `containerd` y `dockershim`, así como los registros privados.

Autoescalado

Tema	Descripción
La herramienta de adaptación dinámica de clústeres no reduce la escala	Diagnostica y resuelve los motivos habituales por los que tu clúster no elimina los nodos infrautilizados. Consulta cómo comprobar si hay problemas como `PodDisruptionBudgets`restrictive, pods con almacenamiento local o anotaciones específicas (por ejemplo, `"cluster-autoscaler.kubernetes.io/safe-to-evict": "false"`) que impiden el desalojo de nodos.
La herramienta de adaptación dinámica de clústeres no escala verticalmente	Descubre por qué la herramienta de adaptación dinámica del clúster no añade nodos nuevos para satisfacer la demanda. Comprueba si hay pods que no se pueden programar, verifica que no hayas alcanzado los límites de tamaño del clúster o del pool de nodos e identifica posibles problemas de cuota de recursos o de disponibilidad de VMs regionales.
Autoescalado horizontal de pods	Soluciona problemas con la herramienta de escalado automático horizontal de pods que no escala las réplicas de pods de tu aplicación. Soluciona problemas habituales, como objetos HorizontalPodAutoscaler mal configurados o problemas con la canalización de métricas.

Almacenamiento

Tema	Descripción
Almacenamiento	Soluciona problemas de almacenamiento, incluidos los relacionados con los discos persistentes regionales, el rendimiento de los discos y la expansión de volúmenes.

Seguridad del clúster

Tema	Descripción
Autenticación	Soluciona problemas de autenticación en GKE, incluidos los problemas con RBAC, Workload Identity Federation para GKE y el servidor de metadatos de GKE.
Cuentas de servicio	Soluciona problemas relacionados con las cuentas de servicio, como restaurar la cuenta de servicio predeterminada y habilitar la cuenta de servicio predeterminada de Compute Engine.
Secretos de la capa de aplicación	Soluciona los problemas que pueden surgir al configurar el cifrado de secretos de la capa de aplicación, incluidos los errores y las actualizaciones fallidas, cuando no puedes usar una clave de Cloud KMS o cuando se ha destruido la versión de la clave de Cloud KMS.

La autoridad de certificación raíz del clúster caducará pronto

Tema	Descripción
La autoridad de certificación (CA) raíz va a caducar	Si la autoridad de certificación (CA) raíz de tu clúster va a caducar pronto, consulta cómo realizar una rotación de credenciales para evitar que se interrumpan las operaciones normales del clúster.

Cargas de trabajo

Tema	Descripción
Cargas de trabajo desplegadas	Soluciona errores de cargas de trabajo que se ejecutan en un clúster de GKE, incluidos los de `PodUnschedulable`. Consulta la sección PodUnschedulable para obtener información sobre errores como `MatchNodeSelector` y `Does not have minimum availability`.
Tiradas de imágenes	Solucionar problemas de extracción de imágenes. Consulta qué provoca estados como `ImagePullBackOff` y `ErrImagePull` y cómo resolverlos solucionando problemas habituales como la autenticación y la conectividad de red.
Eventos CrashLoopBackOff	Soluciona problemas de eventos de `CrashLoopBackOff` en GKE. Diagnostica problemas como el agotamiento de recursos, los errores de configuración de aplicaciones y los fallos de la sonda de actividad.
Eventos de falta de memoria	Solucionar problemas de eventos de falta de memoria (OOM) de Kubernetes. Identificar las causas, distinguir los tipos de eventos y aplicar soluciones eficaces para las finalizaciones por falta de memoria a nivel de contenedor y de nodo.
Cargas de trabajo de Arm	Soluciona problemas con las cargas de trabajo de Arm, como los fallos de los pods en los nodos de Arm.
TPUs	Soluciona problemas de TPUs, como los relacionados con la cuota, el aprovisionamiento automático de nodos, la configuración de cargas de trabajo y la programación.
GPUs	Solucionar problemas con las GPUs, incluidos los problemas con la instalación de controladores de GPU, los errores de complementos de dispositivos y las imágenes de contenedores.

Gestión de clústeres

Tema	Descripción
Actualizaciones de clústeres	Soluciona problemas de actualización de clústeres y nodos de GKE, como actualizaciones largas o incompletas, actualizaciones automáticas inesperadas, fallos y problemas posteriores a la actualización.
Webhooks	Descubre cómo solucionar problemas y garantizar la estabilidad del plano de control de tu clúster al usar webhooks de admisión.
El espacio de nombres se ha quedado bloqueado en el estado `Terminating`	Soluciona problemas con espacios de nombres que se quedan en el estado `Terminating` identificando y eliminando los componentes incorrectos que impiden la eliminación.
Operaciones simultáneas	Soluciona problemas de operaciones simultáneas. Para ello, aprende a identificar estos errores y a resolverlos esperando a que se completen las operaciones.

Supervisión

Tema	Descripción
Métricas del sistema	Soluciona problemas por los que no aparecen métricas del sistema en Cloud Monitoring.
Paneles de control de monitorización	Soluciona problemas con los paneles de monitorización, incluidos los problemas relacionados con la habilitación de la monitorización, la falta de recursos de Kubernetes y los permisos.
Logging	Solucionar problemas de registro, incluidos los problemas con la habilitación del registro, los registros que faltan y las cuotas.

Errores 4xx

Tema	Descripción
Errores 4xx	Soluciona algunos de los errores 400, 401, 403 y 404 que pueden producirse al usar GKE. En esta página también se incluye información sobre cómo solucionar errores de falta de permisos de edición en la cuenta.

Problemas conocidos

Tema	Descripción
Problemas conocidos	Identifica y resuelve problemas conocidos que puedan afectar al uso de GKE.

Siguientes pasos

Si no encuentras una solución a tu problema en la documentación, consulta la sección Obtener asistencia para obtener más ayuda, incluidos consejos sobre los siguientes temas:
- Abrir un caso de asistencia poniéndose en contacto con el equipo de Atención al Cliente de Cloud.
- Obtener asistencia de la comunidad haciendo preguntas en Stack Overflow y usando la etiqueta google-kubernetes-engine para buscar problemas similares. También puedes unirte al #kubernetes-enginecanal de Slack para obtener más ayuda de la comunidad.
- Abrir errores o solicitudes de funciones mediante el seguimiento de problemas público.