Cuando necesitas verificar rápidamente el estado de tus clústeres y cargas de trabajo de Google Kubernetes Engine (GKE), puede ser difícil saber por dónde empezar. Visualizar el estado de tus clústeres y cargas de trabajo en la consola de Google Cloud te ayuda a evaluar rápidamente el estado de tu entorno. El estado del clúster hace referencia al estado de la infraestructura subyacente de GKE, como los nodos y las redes, mientras que el estado de la carga de trabajo hace referencia al estado y el rendimiento de tus apps que se ejecutan en el clúster.
Usa esta página para aprender a navegar por las páginas de clústeres y cargas de trabajo de Kubernetes para obtener una descripción general, identificar posibles problemas (como nodos con presión de recursos o Pods con errores) y profundizar en recursos específicos para obtener más detalles.
Esta información es importante para los administradores y operadores de la plataforma que son responsables de mantener la estabilidad del clúster y necesitan realizar evaluaciones rápidas del estado y verificaciones de recursos. También es fundamental para los desarrolladores de aplicaciones que necesitan comprender el estado de ejecución de sus implementaciones y analizar las fallas. Para obtener más información sobre los roles comunes y las tareas de ejemplo a las que hacemos referencia en el contenido de Google Cloud , consulta Roles de usuario y tareas comunes de GKE.
Para proporcionar un panorama completo del estado de tu app, la consola Google Cloud también te brinda acceso a potentes herramientas de registro y supervisión, lo que te permite investigar la causa raíz de los errores anteriores y evitar de forma proactiva los futuros. Para obtener más información sobre estas herramientas, consulta Realiza análisis históricos con Cloud Logging y Realiza un monitoreo proactivo con Cloud Monitoring.
Cómo encontrar problemas de clústeres
La página Clústeres de Kubernetes te proporciona una descripción general del estado de tus clústeres. Para identificar problemas con cualquiera de tus clústeres, comienza en esta página.
Para comenzar, en la consola de Google Cloud , ve a la página de clústeres de Kubernetes.
Estos son algunos ejemplos de cómo puedes usar esta página para solucionar problemas:
- Para obtener asesoramiento sobre cómo mejorar el estado de tu clúster, tu estrategia de actualización y la optimización de costos, haz clic en Ver recomendaciones.
- Para identificar los clústeres en mal estado, revisa la columna Estado. Cualquier clúster que no tenga una marca de verificación verde requiere atención.
- Para ver los posibles problemas, revisa la columna Notificaciones. Haz clic en cualquier mensaje de notificación para obtener más información.
Investiga un clúster específico
Después de detectar un problema con un clúster, explora la página Detalles del clúster para obtener información detallada que te ayude a solucionar el problema y comprender su configuración.
Para ir a la página Detalles de un clúster, haz lo siguiente:
Ir a la página Clústeres de Kubernetes
Revisa la columna Nombre y haz clic en el nombre del clúster que deseas investigar.
Estos son algunos ejemplos de cómo usar la página Detalles del clúster para solucionar problemas relacionados con él:
Para las verificaciones de estado generales, prueba las siguientes opciones:
Para ver los paneles a nivel del clúster, ve a la pestaña Observabilidad. De forma predeterminada, GKE habilita Cloud Monitoring cuando creas un clúster. Cuando Cloud Monitoring está habilitado, GKE configura automáticamente los paneles en esta página. Estas son algunas de las vistas que pueden resultarte más útiles para solucionar problemas:
- Descripción general: Consulta un resumen general del estado, el uso de recursos y los eventos clave de tu clúster. Este panel te ayuda a evaluar rápidamente el estado general de tu clúster y a identificar posibles problemas.
- Métricas de tráfico: Consulta las métricas de redes basadas en nodos para obtener estadísticas sobre el tráfico entre tus cargas de trabajo de Kubernetes.
- Estado de la carga de trabajo: Consulta el estado de las implementaciones, los Pods y los contenedores. Identificar instancias en mal estado o con fallas, y detectar limitaciones de recursos
Plano de control: Consulta el estado y el rendimiento del plano de control. Este panel te permite supervisar las métricas clave de los componentes, como
kube-apiserver
yetcd
, identificar cuellos de botella en el rendimiento y detectar fallas en los componentes.
Para ver los errores recientes de la app, ve a la pestaña Errores de la app. La información de esta pestaña puede ayudarte a priorizar y resolver errores, ya que muestra la cantidad de ocurrencias, cuándo apareció un error por primera vez y cuándo ocurrió por última vez.
Para investigar un error más a fondo, haz clic en el mensaje de error para ver un informe detallado, incluidos los vínculos a los registros pertinentes.
Si estás solucionando problemas después de una actualización o un cambio recientes, consulta la sección Conceptos básicos del clúster en la pestaña Detalles del clúster. Confirma que la versión que aparece en el campo Versión sea la que esperas. Para investigar más, haz clic en Mostrar historial de actualizaciones en la sección Actualizaciones.
Si usas un clúster estándar y tus Pods están atascados en un estado
Pending
, o sospechas que los nodos están sobrecargados, consulta la pestaña Nodos. La pestaña Nodos no está disponible para los clústeres de Autopilot porque GKE administra los nodos por ti.- En la sección Grupos de nodos, verifica que el ajuste de escala automático esté configurado correctamente y que el tipo de máquina sea adecuado para tus cargas de trabajo.
- En la sección Nodos, busca cualquier nodo con un estado que no sea
Ready
. El estadoNotReady
indica un problema con el nodo en sí, como presión de recursos o un problema con kubelet (kubelet es el agente que se ejecuta en cada nodo para administrar contenedores).
Cómo encontrar problemas de cargas de trabajo
Cuando sospeches que hay un problema con una app específica, como una Deployment fallida, ve a la página Cargas de trabajo en la consola de Google Cloud . En esta página, se proporciona una vista centralizada de todas las apps que se ejecutan en tus clústeres.
Para comenzar, en la consola de Google Cloud , ve a la página Cargas de trabajo.
Estos son algunos ejemplos de cómo puedes usar esta página para solucionar problemas:
- Para identificar las cargas de trabajo en mal estado, revisa la columna Estado. Cualquier carga de trabajo que no tenga una marca de verificación verde requiere atención.
- Si una app no responde, revisa la columna Pods. Por ejemplo, un estado como 1/3 significa que solo se está ejecutando una de las tres réplicas de la app, lo que indica un problema.
Investiga una carga de trabajo específica
Después de identificar una carga de trabajo problemática en el resumen, explora la página Detalles de la carga de trabajo para comenzar a aislar la causa raíz.
Para ir a la página Detalles de una carga de trabajo, haz lo siguiente:
Ir a la página Cargas de trabajo.
Consulta la columna Nombre y haz clic en el nombre de la carga de trabajo que deseas investigar.
A continuación, se incluyen algunos ejemplos de cómo usar la página Detalles de la carga de trabajo para solucionar problemas relacionados con tus cargas de trabajo:
Para verificar la configuración de la carga de trabajo, usa las pestañas Overview y Details de la carga de trabajo. Puedes usar esta información para verificar eventos, como si se implementó la etiqueta de imagen de contenedor correcta, o para verificar las solicitudes y los límites de recursos de la carga de trabajo.
Para encontrar el nombre de un Pod específico con fallas, ve a la sección Managed Pods. Es posible que necesites esta información para los comandos
kubectl
. En esta sección, se enumeran todos los Pods controlados por la carga de trabajo, junto con sus estados.Para ver un historial de los cambios recientes en una carga de trabajo, ve a la pestaña Historial de revisión. Si notas problemas de rendimiento después de una nueva Deployment, usa esta sección para identificar qué revisión está activa. Luego, puedes comparar la configuración de la revisión actual con las anteriores para identificar el origen del problema. Si esta pestaña no está visible, la carga de trabajo es de un tipo que no usa revisiones o aún no tuvo ninguna actualización.
Si parece que falló una Deployment, ve a la pestaña Eventos. Esta página suele ser la fuente de información más valiosa, ya que muestra eventos a nivel de Kubernetes.
Para consultar los registros de tu app, haz clic en la pestaña Registros. En esta página, se explica lo que sucede dentro de tu clúster. Aquí puedes buscar mensajes de error y seguimientos de pila que pueden ayudarte a diagnosticar problemas.
Para confirmar exactamente lo que se implementó, consulta la pestaña YAML. En esta página, se muestra el manifiesto YAML activo de la carga de trabajo tal como existe en el clúster. Esta información es útil para encontrar cualquier discrepancia en los manifiestos controlados por la fuente. Si estás viendo el manifiesto YAML de un solo Pod, esta pestaña también muestra el estado del Pod, lo que proporciona estadísticas sobre las fallas a nivel del Pod.
¿Qué sigue?
Lee Investiga el estado de un clúster con
kubectl
(la siguiente página de esta serie).Consulta cómo se aplican estos conceptos en el ejemplo de situación de solución de problemas.
Para obtener asesoramiento sobre cómo resolver problemas específicos, consulta las guías de solución de problemas de GKE.
Si no encuentras una solución a tu problema en la documentación, consulta Obtener asistencia para obtener más ayuda, como asesoramiento en los siguientes temas:
- Comunicarse con Atención al cliente de Cloud para abrir un caso de asistencia.
- Hacer preguntas en StackOverflow para obtener asistencia de
la comunidad y usar la etiqueta
google-kubernetes-engine
para buscar problemas similares. También puedes unirte al canal de Slack#kubernetes-engine
para obtener más Asistencia de la comunidad. - Abrir errores o solicitudes de funciones con la herramienta de seguimiento de errores pública.