Supervisa el estado del sistema con el detector de problemas de nodos

A partir del evento importante 77, Container-Optimized OS incluye el agente Detector de problemas de nodos. Puedes usar esta característica para supervisar el estado del sistema de instancias de COS. El detector de problemas de nodos supervisa el estado de la instancia y, además, informa las métricas relacionadas con el estado a Cloud Monitoring, incluidas las métricas de capacidad y error que puedes visualizar con los paneles de Google Cloud's operations suite. Las métricas recopiladas de la configuración predeterminada son gratuitas. Google usará métricas agregadas para comprender los problemas de los nodos y mejorar la confiabilidad de Container-Optimized OS.

El agente está preconfigurado con el conjunto de métricas que se exportará. En este momento, la personalización de métricas informadas para el agente integrado no es compatible. El detector de problemas de Node es un software de código abierto. Puedes revisar su código fuente y configuraciones en sus respectivos repositorios de origen.

Habilitación de la vigilancia de la salud

.

De forma predeterminada, la función está inhabilitada en el momento del inicio. Puedes habilitar esta función con cloud-init o con una secuencia de comandos de inicio.

En el ejemplo de cloud-init, se explican los conceptos básicos de la configuración de una instancia de Container-Optimized OS. Puedes usar cloud-init para habilitar la supervisión de estado con el siguiente ejemplo de cloud-config:

#cloud-config

runcmd:
- systemctl start node-problem-detector

Visualiza las métricas recopiladas

El detector de problemas de nodos informa una lista de métricas frente a un recurso supervisado de la instancia de Compute Engine. Las métricas se documentan en la Lista de métricas de Monitoring, con el prefijo compute.googleapis.com/guest/. Puedes ver las métricas recopiladas mediante el Explorador de métricas de Monitoring:

  1. En Google Cloud Console, ve a Monitoring o usa el siguiente botón:

    Ir a Monitoring

  2. En el panel de navegación de Monitoring, haz clic en Explorador de métricas.

  3. Para el tipo de recurso, selecciona Instancia de VM de Compute Engine.

  4. Selecciona una métrica, por ejemplo, “Recuento de problemas”.

  5. Deberías ver gráficos y estadísticas a la derecha. Para ver el resultado de una instancia específica de Container-Optimized OS, configura el filtro como "instance_id=[INSTANCE_ID]" y reemplaza [INSTANCE_ID] por el ID de la instancia deseada.

Inhabilita la supervisión del estado

De forma predeterminada, la función está inhabilitada en el momento del inicio. Si ya habilitaste la función, pero deseas inhabilitarla ahora, quita el paso systemctl start node-problem-detector de tu secuencia de comandos de inicio y cloud-config y, luego, reinicia la instancia de Container-Optimized OS.