Se usó la API de Cloud Translation para traducir esta página.

Soluciona problemas de cargas de trabajo implementadas

Autopilot estándar

En esta página, se muestra cómo resolver errores con tus cargas de trabajo implementadas en Google Kubernetes Engine (GKE).

Para obtener más consejos generales sobre la solución de problemas de tus aplicaciones, consulta Cómo solucionar problemas de aplicaciones en la documentación de Kubernetes.

Todos los errores: Verifica el estado del Pod

Si hay problemas con los Pods de una carga de trabajo, Kubernetes actualiza el estado del Pod con un mensaje de error. Para ver estos errores, verifica el estado de un Pod con la consola de Google Cloud o la herramienta de línea de comandos de kubectl.

Console

Sigue los siguientes pasos:

En la consola de Google Cloud , ve a la página Cargas de trabajo.

Ir a Cargas de trabajo
Elige la carga de trabajo que deseas investigar. La pestaña Descripción general muestra el estado de la carga de trabajo.
En la sección Pods administrados, haz clic en un mensaje de estado de error.

kubectl

Para ver todos los pods en ejecución en tu clúster, ejecuta el comando siguiente:

kubectl get pods

El resultado es similar a este:

NAME       READY  STATUS             RESTARTS  AGE
POD_NAME   0/1    CrashLoopBackOff   23        8d

Los posibles errores se indican en la columna Status.

Para obtener más información sobre un pod específico, ejecuta el siguiente comando:

kubectl describe pod POD_NAME

Reemplaza POD_NAME por el nombre del Pod que deseas investigar.

En el resultado, el campo Events muestra más información sobre los errores.

Si quieres obtener más información, consulta los registros del contenedor:

kubectl logs POD_NAME

Estos registros pueden ayudarte a identificar si un comando o código en el contenedor hizo que el Pod fallara.

Después de identificar el error, usa las siguientes secciones para intentar resolver el problema.

Error: CrashLoopBackOff

Un estado de CrashLoopBackOff no significa que haya un error específico, sino que indica que un contenedor falla repetidas veces después de reiniciarse.

Para obtener más información, consulta Soluciona problemas de eventos de CrashLoopBackOff.

Errores: ImagePullBackOff y ErrImagePull

Un estado de ImagePullBackOff o ErrImagePull indica que la imagen que usa un contenedor no se puede cargar desde el registro de imágenes.

Para obtener orientación sobre la solución de problemas relacionados con estos estados, consulta Soluciona problemas de extracción de imágenes.

Error: Pod no programable

Un estado de PodUnschedulable indica que tu Pod no se puede programar debido a recursos insuficientes o a algún error de configuración.

Si configuraste las métricas del plano de control, puedes encontrar más información sobre estos errores en las métricas del programador y las métricas del servidor de la API.

Usa la guía interactiva de Pods no programables

Puedes solucionar los errores PodUnschedulable con la guía interactiva en la consola Google Cloud :

Ve a la guía interactiva de Pods no programables:

Ir a la guía
En la lista desplegable Clúster, selecciona el clúster para el que deseas solucionar el problema. Si no encuentras tu clúster, ingresa su nombre en el campo Filtro de .
En la lista desplegable Espacio de nombres, selecciona el espacio de nombres para el que deseas solucionar el problema. Si no encuentras tu espacio de nombres, ingresa su nombre en el campo Filtro de .
Para ayudarte a identificar la causa, revisa cada una de las secciones de la guía:
1. Investiga la CPU y la memoria
2. Investiga la cantidad máxima de Pods por nodo
3. Investiga el comportamiento del escalador automático
4. Investiga otros modos de falla
5. Correlaciona los eventos de cambio
Opcional: Para recibir notificaciones sobre errores PodUnschedulable futuros, en la sección Sugerencias para mitigaciones futuras, selecciona Crear una alerta.

Error: Recursos insuficientes

Puedes encontrar un error que indique una falta de CPU, memoria o algún otro recurso. Por ejemplo: No nodes are available that match all of the predicates: Insufficient cpu (2), que indica que, en dos nodos, no hay suficiente CPU disponible para cumplir con las solicitudes de un Pod.

Si las solicitudes de recursos de tu pod superan las de un solo nodo de cualquier grupo de nodos apto, GKE no programa el pod ni activa el escalamiento vertical para agregar un nodo nuevo. Para que GKE programe el Pod, debes solicitar menos recursos para el Pod o crear un grupo de nodos nuevo con recursos suficientes.

También puedes habilitar el aprovisionamiento automático de nodos para que GKE pueda crear de forma automática grupos de nodos con nodos en los que puedan ejecutarse los Pods no programados.

La solicitud de CPU predeterminada es de 100m o el 10% de una CPU (o un núcleo). Si deseas solicitar más o menos recursos, detalla el valor en la especificación del Pod en spec: containers: resources: requests.

Error: MatchNodeSelector

MatchNodeSelector indica que no hay nodos que coincidan con el selector de etiquetas del pod.

Para verificar esto, revisa las etiquetas que se especifican en el campo nodeSelector de la especificación del pod, debajo de spec: nodeSelector.

Para ver cómo están etiquetados los nodos en tu clúster, ejecuta el siguiente comando:

kubectl get nodes --show-labels

Para adjuntar una etiqueta a un nodo, ejecuta el siguiente comando:

kubectl label nodes NODE_NAME LABEL_KEY=LABEL_VALUE

Reemplaza lo siguiente:

NODE_NAME: Es el nodo al que deseas agregar una etiqueta.
LABEL_KEY: la clave de la etiqueta.
LABEL_VALUE: el valor de la etiqueta.

Para obtener más información, consulta Asigna Pods a nodos en la documentación de Kubernetes.

Error: PodToleratesNodeTaints

PodToleratesNodeTaints indica que el Pod no se puede programar en ningún nodo porque no tiene tolerancias que correspondan a los taints de nodo existentes.

Para verificar que este sea el caso, ejecuta el comando siguiente:

kubectl describe nodes NODE_NAME

En el resultado, verifica el campo Taints, que enumera pares clave-valor y efectos de programación.

Si el efecto enumerado es NoSchedule, entonces no se puede programar ningún pod en ese nodo, a menos que tenga una tolerancia coincidente.

Una manera de resolver este problema es quitar el taint. Por ejemplo, para quitar un taint NoSchedule, ejecuta el siguiente comando:

kubectl taint nodes NODE_NAME key:NoSchedule-

Error: PodFitsHostPorts

El error PodFitsHostPorts significa que un nodo está intentando usar un puerto que ya está ocupado.

Para resolver el problema, considera seguir las prácticas recomendadas de Kubernetes y usar un NodePort en lugar de un hostPort.

Si debes usar un hostPort, verifica los manifiestos de los Pods y asegúrate de que todos los Pods del mismo nodo tengan valores únicos definidos para hostPort.

Error: No tiene disponibilidad mínima

Si un nodo tiene recursos adecuados, pero todavía ves el mensaje Does not have minimum availability, comprueba el estado del pod. Si el estado es SchedulingDisabled o Cordoned, el nodo no puede programar pods nuevos. Puedes verificar el estado de un nodo con la consola de Google Cloud o la herramienta de línea de comandos de kubectl.

Console

Sigue los siguientes pasos:

Ve a la página de Google Kubernetes Engine en la consola de Google Cloud .

Ir a Google Kubernetes Engine
Selecciona el clúster que deseas explorar. La pestaña Nodos muestra los nodos y su estado.

Para habilitar la programación en el nodo, realiza los pasos siguientes:

En la lista, haz clic en el nodo que quieres investigar.
En la sección Detalles del nodo, haz clic en Desvincular.

kubectl

Para obtener los estados de los nodos, ejecuta el siguiente comando:

kubectl get nodes

Para habilitar la programación en el nodo, ejecuta lo siguiente:

kubectl uncordon NODE_NAME

Error: Se alcanzó el límite máximo de Pods por nodo

Si todos los nodos del clúster alcanzan el límite de máximo de Pods por nodo, los Pods se detendrán en estado no programable. En la pestaña Eventos del Pod, verás un mensaje que incluye la frase Too many pods.

Para resolver este error, completa los siguientes pasos:

Verifica la configuración de Maximum pods per node desde la pestaña Nodos en los detalles del clúster de GKE en la consola de Google Cloud .
Obtén una lista de nodos:
```
kubectl get nodes
```
Para cada nodo, verifica la cantidad de Pods que se ejecutan en el nodo:
```
kubectl get pods -o wide | grep NODE_NAME | wc -l
```
Si se alcanza el límite, agrega un grupo de nodos nuevo o agrega nodos adicionales al grupo existente.

Problema: Se alcanzó el tamaño máximo del grupo de nodos con el escalador automático del clúster habilitado

Si el grupo de nodos alcanzó su tamaño máximo según la configuración del escalador automático de clústeres, GKE no activa el escalamiento vertical para el Pod que, de lo contrario, se programaría con este grupo de nodos. Si quieres que el pod se programe con este grupo de nodos, cambia la configuración del escalador automático de clústeres.

Problema: Tamaño máximo del grupo de nodos alcanzado con el escalador automático del clúster inhabilitado

Si el grupo de nodos alcanzó la cantidad máxima de nodos y el escalador automático de clústeres está inhabilitado, GKE no puede programar el Pod con el grupo de nodos. Aumenta el tamaño de tu grupo de nodos o habilita el escalador automático del clúster para que GKE cambie el tamaño del clúster de forma automática.

Error: PersistentVolumeClaims no vinculados

Unbound PersistentVolumeClaims indica que el pod hace referencia a una PersistentVolumeClaim que no está vinculada. Este error puede ocurrir si no se pudo aprovisionar el PersistentVolume. Puedes verificar que el aprovisionamiento falló, si obtienes los eventos de la PersistentVolumeClaim y los examinas en busca de errores.

Para obtener los eventos, ejecuta el siguiente comando:

kubectl describe pvc STATEFULSET_NAME-PVC_NAME-0

Reemplaza lo siguiente:

STATEFULSET_NAME: el nombre del objeto StatefulSet.
PVC_NAME: el nombre del objeto PersistentVolumeClaim.

Esto también puede ocurrir si hubo un error de configuración durante el aprovisionamiento previo manual de un PersistentVolume y su vinculación a una PersistentVolumeClaim.

Para resolver este error, intenta aprovisionar el volumen de nuevo.

Error: Cuota insuficiente

Verifica que tu proyecto tenga suficiente cuota de Compute Engine para que GKE escale verticalmente tu clúster. Si GKE intenta agregar un nodo a tu clúster para programar el pod y escalar verticalmente superaría la cuota disponible de tu proyecto, recibirás el mensaje de error scale.up.error.quota.exceeded.

Para obtener más información, consulta Errores de ScaleUp.

Problema: APIs obsoletas

Asegúrate de no usar APIs obsoletas que se quitan con la versión secundaria de tu clúster. Para obtener más información, consulta Bajas de funciones y APIs.

Error: No había puertos libres para los puertos de Pod solicitados

Si ves un error similar al siguiente, es probable que tengas varios Pods en el mismo nodo con el mismo valor definido en el campo hostPort:

0/1 nodes are available: 1 node(s) didn't have free ports for the requested pod ports. preemption: 0/1 nodes are available: 1 No preemption victims found for incoming pod.

Vincular un Pod a un hostPort limita dónde GKE puede programar el Pod, ya que cada combinación de hostIP, hostPort y protocol debe ser única.

Para resolver el problema, considera seguir las prácticas recomendadas de Kubernetes y usar un NodePort en lugar de un hostPort.

Si debes usar un hostPort, verifica los manifiestos de los Pods y asegúrate de que todos los Pods del mismo nodo tengan valores únicos definidos para hostPort.

¿Qué sigue?

Si no encuentras una solución a tu problema en la documentación, consulta Obtener asistencia para obtener más ayuda, como asesoramiento en los siguientes temas:
- Comunicarse con Atención al cliente de Cloud para abrir un caso de asistencia.
- Hacer preguntas en StackOverflow para obtener asistencia de la comunidad y usar la etiqueta google-kubernetes-engine para buscar problemas similares. También puedes unirte al canal de Slack #kubernetes-engine para obtener más Asistencia de la comunidad.
- Abrir errores o solicitudes de funciones con la herramienta de seguimiento de errores pública.