Depurar problemas de nodos

En esta página se explica cómo depurar problemas de nodos en Google Distributed Cloud (solo software) para VMware mediante un conjunto de herramientas de depuración preinstaladas.

Información general

Cada clúster de Google Distributed Cloud que creas se compone de varios nodos. Cada nodo incluye una distribución de toolbox de CoreOS, un shell script que descomprime y ejecuta un contenedor de depuración, debug-toolbox. debug-toolbox es una imagen de contenedor que incluye varias herramientas de depuración útiles.

Si tienes problemas con un nodo específico, puedes intentar depurarlo conectándote al nodo afectado, ejecutando la secuencia de comandos toolbox para descomprimir y ejecutar el contenedor debug-toolbox y ejecutando las herramientas incluidas en el contenedor.

Herramientas incluidas en el contenedor debug-toolbox

El contenedor debug-toolbox ejecuta una imagen base de Debian que incluye los siguientes paquetes:

  • bash
  • curl
  • dnsutils
  • hping3
  • iperf3
  • lsof
  • netcat
  • mtr
  • procps
  • strace
  • tcpdump
  • traceroute
  • util-linux

Como estas herramientas están incluidas en el contenedor, no requieren conexión a Internet. Si quieres instalar herramientas de depuración adicionales, puedes usar apt-get, que sí requiere una conexión a Internet.

Estás usando toolbox

  1. Accede al nodo del clúster mediante SSH.

  2. Ejecuta el comando toolbox:

    sudo toolbox

    Este comando inicia un contenedor debug-toolbox.

  3. Mientras estés en el contenedor, ejecuta una de las herramientas. Por ejemplo, tcpdump.

  4. Cuando hayas terminado, sal del contenedor y cierra la conexión SSH al nodo.

Node Problem Detector

Node Problem Detector, que está habilitado en todos los nodos de un clúster, ayuda a detectar rápidamente algunos problemas habituales de los nodos. Node Problem Detector sigue buscando posibles problemas e informa de ellos como eventos y condiciones en el nodo. Si un nodo se comporta de forma incorrecta, puedes comprobar si Node Problem Detector ha detectado el problema ejecutando kubectl describe en el nodo y buscando los eventos y las condiciones correspondientes.

Los monitores de Node Problem Detector generan varias condiciones en el nodo. Si la condición notificada es KubeletUnhealthy o ContainerRuntimeUnhealthy, puede que reiniciar el servicio systemd correspondiente (kubelet o Docker) ayude a que el nodo vuelva a estar en buen estado.

A partir de la versión 1.5 de Google Distributed Cloud, la reparación automática del servicio kubelet y docker systemd está habilitada en Node Problem Detector. Si Node Problem Detector detecta una condición KubeletUnhealthy o ContainerRuntimeUnhealthy en el nodo, intenta reiniciar el servicio kubelet o docker automáticamente si el tiempo transcurrido desde el último reinicio supera un determinado umbral.

Siguientes pasos

Si necesitas más ayuda, ponte en contacto con el servicio de atención al cliente de Cloud.

También puedes consultar la sección Obtener asistencia para obtener más información sobre los recursos de asistencia, incluidos los siguientes: