Supervisa el rendimiento de las GPU en las VM de Linux

Linux

Puedes hacer un seguimiento de las métricas, como el uso de GPU y la memoria de GPU de tus instancias de máquina virtual (VM) mediante el Agente de operaciones, que es la solución de recopilación de telemetría recomendada de Google para Compute. Engine. Con el Agente de operaciones, puedes administrar tus VMs de GPU de la siguiente manera:

Visualiza el estado de tu flota de GPU de NVIDIA con nuestros paneles preconfigurados.
Identifica las GPU con poco uso y consolida las cargas de trabajo para optimizar los costos.
Planifica el escalamiento mediante la observación de las tendencias para decidir cuándo expandir la capacidad de la GPU o actualizar las GPU existentes.
Usa las métricas de perfilado del administrador de GPU del centro de datos de NVIDIA (DCGM) para identificar cuellos de botella y problemas de rendimiento dentro de las GPU.
Configura grupos de instancias administrados (MIGs) para escalar los recursos de forma automática.
Recibe alertas sobre las métricas de tus GPU de NVIDIA.

En este documento, se abordan los procedimientos para supervisar GPU en VMs de Linux mediante el Agente de operaciones. Como alternativa, hay una secuencia de comandos de informes disponible en GitHub que también se puede configurar para supervisar el uso de GPU en las VMs de Linux. Consulta secuencia de comandos de supervisióncompute-gpu-monitoring. Esta secuencia de comandos no se mantiene de forma activa.

Para supervisar GPU en VMs de Windows, consulta Supervisa el rendimiento de las GPU (Windows).

Descripción general

El Agente de operaciones, versión 2.38.0 o posterior, puede realizar un seguimiento automático del uso de GPU y las tasas de uso de memoria de GPU en tus VMs de Linux que tienen el agente instalado. Se realiza un seguimiento de estas métricas, obtenidas de la biblioteca de administración de NVIDIA (NVML), por GPU y por proceso para cualquier proceso que use GPU. Si deseas ver las métricas que supervisa el Agente de operaciones, consulta Métricas del agente: gpu.

También puedes configurar la integración del administrador de GPU del centro de datos de NVIDIA (DCGM) con el Agente de operaciones. Esta integración permite que el Agente de operaciones realice un seguimiento de las métricas mediante los contadores de hardware en la GPU. DCGM proporciona acceso a las métricas a nivel de dispositivo de GPU. Estos incluyen el uso de bloques de Streaming MultiProcessor (SM), la ocupación de SM, la utilización de la canalización de SM, la tasa de tráfico de PCIe y la tasa de tráfico de NVLink. Para ver las métricas supervisadas por el Agente de operaciones, consulta Métricas de aplicaciones de terceros: Administrador de GPU del centro de datos de NVIDIA (DCGM).

Para revisar las métricas de GPU mediante el Agente de operaciones, completa los siguientes pasos:

En cada VM, verifica que cumples con los requisitos.
Instala el Agente de operaciones en cada VM.
Opcional: en cada VM, configura la integración de administrador de GPU del centro de datos de NVIDIA (DCGM).
Revisa las métricas en Cloud Monitoring.

Limitaciones

El agente de operaciones no realiza un seguimiento del uso de la GPU en las VM que usan Container-Optimized OS.

Requisitos

En cada una de tus VM, verifica que se satisfagan los siguientes requisitos:

Cada VM debe tener GPU adjuntas.
Cada instancia de VM debe tener un controlador de GPU instalado.
El sistema operativo Linux y la versión para cada una de tu VMs deben ser compatibles con el Agente de operaciones. Consulta la lista de sistemas operativos de Linux que admiten el Agente de operaciones.
Asegúrate de tener acceso sudo a cada VM.

Instalar el Agente de operaciones.

Para instalar el Agente de operaciones, completa los siguientes pasos:

Si usabas la compute-gpu-monitoring secuencia de comandos de supervisión para hacer un seguimiento del uso de la GPU, inhabilita el servicio antes de instalar el Agente de operaciones. Para inhabilitar la secuencia de comandos de supervisión, ejecuta el siguiente comando:
```
sudo systemctl --no-reload --now disable google_gpu_monitoring_agent
```
Instala la última versión del Agente de operaciones Si deseas obtener instrucciones detalladas, consulta Instala el Agente de operaciones.
Después de instalar el Agente de operaciones, si necesitas instalar o actualizar los controladores de GPU mediante las secuencias de comandos de instalación que proporciona Compute Engine, revisa las limitaciones.

Revisa las métricas de NVML en Compute Engine

Puedes revisar las métricas de NVML que el agente de operaciones recopila en las pestañas de Observabilidad para las instancias de VM de Linux de Compute Engine.

Para ver las métricas de una sola VM, haz lo siguiente:

En la consola de Google Cloud, ve a la página Instancias de VM.

Ir a Instancias de VM
Selecciona una VM para abrir la página Detalles.
Haz clic en la pestaña Observabilidad para mostrar información sobre la VM.
Selecciona el filtro rápido GPU.

Para ver las métricas de varias VMs, haz lo siguiente:

En la consola de Google Cloud, ve a la página Instancias de VM.

Ir a Instancias de VM
Haz clic en la pestaña Observabilidad.
Selecciona el filtro rápido GPU.

Opcional: configura la integración del administrador de GPU del centro de datos de NVIDIA (DCGM)

El Agente de operaciones también proporciona integración para el administrador de GPU del centro de datos de NVIDIA (DCGM) para recopilar métricas clave de GPU avanzadas, como el uso del bloque de multiprocesador de transmisión (SM), la ocupación del SM, el uso de canalizaciones del SM, la tasa de tráfico de PCIe y la tasa de tráfico de NVLink.

Estas métricas avanzadas de GPU no se recopilan de los modelos NVIDIA P100 y P4.

Para obtener instrucciones detalladas sobre cómo configurar y usar esta integración en cada VM, consulta Administrador de GPU del centro de datos de NVIDIA (DCGM).

Revisa las métricas de DCGM en Cloud Monitoring

En la consola de Google Cloud, ve a la página Monitoring > Paneles:

Ir a Monitoring
Selecciona la pestaña Biblioteca de muestra.
En el campo Filtro , escribe NVIDIA. Aparecerá el panel Descripción general de NVIDIA GPU Monitoring (GCE y GKE).

Si configuraste la integración del administrador de GPU del centro de datos de NVIDIA (DCGM), también se muestra el panel Métricas del DCGM de NVIDIA GPU Monitoring Advanced (solo GCE).
En el panel obligatorio, haz clic en Vista previa. Aparecerá la página Vista previa del panel de muestra.
En la página Panel de vista previa de muestra, haz clic en Importar panel de muestra.
- En el panel Descripción general de GPU de NVIDIA Monitoring (GCE y GKE), se muestran las métricas de GPU, como el uso de GPU, la tasa de tráfico de NIC y el uso de memoria de GPU.
  
  La pantalla de uso de la GPU es similar al siguiente resultado:
- El panel Métricas de DCGM de GPU de NVIDIA Monitoring Advanced (solo GCE) muestra métricas avanzadas clave, como el uso de SM, la ocupación de SM, el uso de canalizaciones de SM, la tasa de tráfico de PCIe y la tasa de tráfico NVLink.
  
  La pantalla de la métrica Advanced DCGM es similar al siguiente resultado:

Próximos pasos

Para controlar el mantenimiento del host de la GPU, consulta la página sobre cómo controlar eventos de mantenimiento del host de la GPU.
Para mejorar el rendimiento de la red, consulta Usa un ancho de banda de red mayor.