Solucionar problemas de GKE


En esta página se enumeran las páginas para solucionar problemas habituales que pueden surgir al usar Google Kubernetes Engine (GKE). Esta página está dirigida a administradores, arquitectos, especialistas en seguridad, especialistas en redes o especialistas en almacenamiento que solucionan problemas de configuraciones de GKE. Para obtener más información sobre los roles de GKE, consulta Roles y tareas comunes de los usuarios de GKE.

Si no tienes mucha experiencia en la solución de problemas en GKE o quieres obtener una visión general de las herramientas y técnicas básicas, empieza con la introducción a la solución de problemas.

Para diagnosticar y resolver los problemas que surjan en las distintas fases de trabajo con tu infraestructura de GKE, consulta las siguientes secciones:

En esta página también se ofrece acceso a temas más generales sobre la solución de problemas:

Para solucionar problemas de redes de GKE, consulta el artículo Solucionar problemas de redes de GKE en la documentación de redes de GKE.

Introducción a la solución de problemas

Tema Descripción
Introducción a la solución de problemas de GKE Para empezar a solucionar problemas de GKE, consulta el proceso general y los conceptos fundamentales.
Revisar el estado de los servicios y los incidentes Consulta cómo comprobar el estado de GKE y los Google Cloud servicios relacionados para descartar problemas de la plataforma.
Evaluar el estado de los clústeres y las cargas de trabajo en la Google Cloud consola Consulta cómo usar la Google Cloud consola para investigar y resolver problemas de GKE.
Investigar el estado de un clúster con kubectl Consulta los comandos y las técnicas habituales de kubectl para diagnosticar problemas en tus clústeres y cargas de trabajo.
Realizar análisis históricos con Cloud Logging Descubre cómo usar Cloud Logging de forma eficaz para encontrar las causas raíz de los problemas en GKE.
Monitorizar de forma proactiva con Cloud Monitoring Utiliza los paneles de control y las métricas de Cloud Monitoring para identificar, diagnosticar y resolver problemas de GKE.
Acelerar el diagnóstico con Gemini Cloud Assist Descubre cómo puede ayudarte Gemini a diagnosticar y resolver problemas de GKE.
Ponerlo todo en práctica: ejemplo de solución de problemas Sigue un ejemplo detallado para solucionar un problema habitual en GKE.

Configuración del clúster

Tema Descripción
Creación de clústeres Soluciona problemas al crear clústeres.
Clústeres de Autopilot Diagnostica y soluciona problemas de clústeres de Autopilot de GKE, como la creación de clústeres, la eliminación de espacios de nombres, el escalado y los problemas de cargas de trabajo.
Herramienta de línea de comandos kubectl Soluciona problemas de la herramienta de línea de comandos kubectl en GKE, incluidos los problemas de autenticación y autorización. En esta página también se incluye información sobre cómo solucionar problemas del proxy de Konnectivity para comprobar si es la causa de que los comandos kubectl logs, attach, exec o port-forward dejen de responder.
Grupos de nodos estándar Soluciona problemas de grupos de nodos estándar de GKE, como problemas con la creación de grupos de nodos, el aprovisionamiento con el mejor esfuerzo, los metadatos de instancias dañados y la migración de cargas de trabajo a grupos de nodos nuevos.
Registro de nodos Soluciona los problemas que se producen al añadir nodos a tu clúster de GKE Standard, como los fallos de registro de nodos y los requisitos previos que faltan para que el registro de nodos se realice correctamente.
Tiempo de ejecución del contenedor Solucionar problemas de los tiempos de ejecución de contenedores en GKE, incluidos los problemas con containerd y dockershim, así como los registros privados.

Almacenamiento

Tema Descripción
Almacenamiento Soluciona problemas de almacenamiento, incluidos los relacionados con los discos persistentes regionales, el rendimiento de los discos y la expansión de volúmenes.

Seguridad del clúster

Tema Descripción
Autenticación Soluciona problemas de autenticación en GKE, incluidos los problemas con RBAC, Workload Identity Federation para GKE y el servidor de metadatos de GKE.
Cuentas de servicio Soluciona problemas relacionados con las cuentas de servicio, como restaurar la cuenta de servicio predeterminada y habilitar la cuenta de servicio predeterminada de Compute Engine.
Secretos de la capa de aplicación Soluciona los problemas que pueden surgir al configurar el cifrado de secretos de la capa de aplicación, incluidos los errores y las actualizaciones fallidas, cuando no puedes usar una clave de Cloud KMS o cuando se ha destruido la versión de la clave de Cloud KMS.

La autoridad de certificación raíz del clúster caducará pronto

Tema Descripción
La autoridad de certificación (CA) raíz va a caducar Si la autoridad de certificación (CA) raíz de tu clúster va a caducar pronto, consulta cómo realizar una rotación de credenciales para evitar que se interrumpan las operaciones normales del clúster.

Cargas de trabajo

Tema Descripción
Cargas de trabajo desplegadas Soluciona errores de cargas de trabajo que se ejecutan en un clúster de GKE, incluidos los de PodUnschedulable. Consulta la sección PodUnschedulable para obtener información sobre errores como MatchNodeSelector y Does not have minimum availability.
Tiradas de imágenes Soluciona problemas de extracción de imágenes. Consulta qué provoca estados como ImagePullBackOff y ErrImagePull y cómo resolverlos solucionando problemas habituales como la autenticación y la conectividad de red.
Eventos CrashLoopBackOff Soluciona problemas de eventos de CrashLoopBackOff en GKE. Diagnostica problemas como el agotamiento de recursos, los errores de configuración de aplicaciones y los fallos de la sonda de actividad.
Eventos de falta de memoria Solucionar problemas de eventos de falta de memoria (OOM) de Kubernetes. Identificar las causas, distinguir los tipos de eventos y aplicar soluciones eficaces para los errores de falta de memoria a nivel de contenedor y de nodo.
Cargas de trabajo de Arm Soluciona problemas con las cargas de trabajo de Arm, como los fallos de los pods en los nodos de Arm.
TPUs Soluciona problemas de TPUs, como los relacionados con la cuota, el aprovisionamiento automático de nodos, la configuración de cargas de trabajo y la programación.
GPUs Solucionar problemas con las GPUs, incluidos los problemas con la instalación de controladores de GPU, los errores de complementos de dispositivos y las imágenes de contenedores.

Gestión de clústeres

Tema Descripción
Actualizaciones de clústeres Soluciona problemas de actualización de clústeres y nodos de GKE, como actualizaciones largas o incompletas, actualizaciones automáticas inesperadas, fallos y problemas posteriores a la actualización.
Webhooks Descubre cómo solucionar problemas y garantizar la estabilidad del plano de control de tu clúster al usar webhooks de admisión.
El espacio de nombres se ha quedado bloqueado en el estado Terminating Soluciona problemas con espacios de nombres que se quedan en el estado Terminating identificando y eliminando los componentes incorrectos que impiden la eliminación.
Operaciones simultáneas Soluciona problemas de operaciones simultáneas aprendiendo a identificar estos errores y a resolverlos esperando a que se completen las operaciones.

Supervisión

Tema Descripción
Métricas del sistema Soluciona problemas por los que no aparecen métricas del sistema en Cloud Monitoring.
Paneles de control de monitorización Soluciona problemas con los paneles de monitorización, incluidos los problemas relacionados con la habilitación de la monitorización, la falta de recursos de Kubernetes y los permisos.
Logging Solucionar problemas de registro, incluidos los problemas con la habilitación del registro, los registros que faltan y las cuotas.

Errores 4xx

Tema Descripción
Errores 4xx Soluciona algunos de los errores 400, 401, 403 y 404 que pueden producirse al usar GKE. En esta página también se incluye información sobre cómo solucionar errores de falta de permisos de edición en la cuenta.

Problemas conocidos

Tema Descripción
Problemas conocidos Identifica y resuelve problemas conocidos que puedan afectar al uso de GKE.

Siguientes pasos