En esta página se explica cómo depurar problemas de nodos en Google Distributed Cloud (solo software) para VMware mediante un conjunto de herramientas de depuración preinstaladas.
Información general
Cada clúster de Google Distributed Cloud que creas se compone de varios nodos. Cada nodo incluye una distribución de toolbox
de CoreOS, un shell script que descomprime y ejecuta un contenedor de depuración, debug-toolbox
.
debug-toolbox
es una imagen de contenedor que incluye varias herramientas de depuración útiles.
Si tienes problemas con un nodo específico, puedes intentar depurarlo conectándote al nodo afectado, ejecutando la secuencia de comandos toolbox
para descomprimir y ejecutar el contenedor debug-toolbox
y ejecutando las herramientas incluidas en el contenedor.
Herramientas incluidas en el contenedor debug-toolbox
El contenedor debug-toolbox
ejecuta una imagen base de Debian que incluye los siguientes paquetes:
- bash
- curl
- dnsutils
- hping3
- iperf3
- lsof
- netcat
- mtr
- procps
- strace
- tcpdump
- traceroute
- util-linux
Como estas herramientas están incluidas en el contenedor, no requieren conexión a Internet. Si quieres instalar herramientas de depuración adicionales, puedes usar apt-get
, que sí requiere una conexión a Internet.
Estás usando toolbox
Ejecuta el comando
toolbox
:sudo toolbox
Este comando inicia un contenedor
debug-toolbox
.Mientras estés en el contenedor, ejecuta una de las herramientas. Por ejemplo,
tcpdump
.Cuando hayas terminado, sal del contenedor y cierra la conexión SSH al nodo.
Node Problem Detector
Node Problem Detector, que está habilitado en todos los nodos de un clúster, ayuda a detectar rápidamente algunos problemas habituales de los nodos. Node Problem Detector sigue buscando posibles problemas e informa de ellos como eventos y condiciones en el nodo. Si un nodo se comporta de forma incorrecta, puedes comprobar si Node Problem Detector ha detectado el problema ejecutando kubectl describe
en el nodo y buscando los eventos y las condiciones correspondientes.
Los monitores de Node Problem Detector generan varias condiciones en el nodo. Si la condición notificada es KubeletUnhealthy
o ContainerRuntimeUnhealthy
, puede que reiniciar el servicio systemd
correspondiente (kubelet o Docker) ayude a que el nodo vuelva a estar en buen estado.
A partir de la versión 1.5 de Google Distributed Cloud, la reparación automática del servicio kubelet y docker systemd está habilitada en Node Problem Detector. Si Node Problem Detector detecta una condición KubeletUnhealthy
o ContainerRuntimeUnhealthy
en el nodo, intenta reiniciar el servicio kubelet o docker automáticamente si el tiempo transcurrido desde el último reinicio supera un determinado umbral.
Siguientes pasos
Si necesitas más ayuda, ponte en contacto con el servicio de atención al cliente de Cloud.
También puedes consultar la sección Obtener asistencia para obtener más información sobre los recursos de asistencia, incluidos los siguientes:
- Requisitos para abrir un caso de asistencia.
- Herramientas para ayudarte a solucionar problemas, como registros y métricas.
- Componentes, versiones y funciones compatibles de Google Distributed Cloud para VMware (solo software).