En esta página se explica cómo consultar las métricas de NVIDIA Data Center GPU Manager (DCGM) asociadas a sus endpoints de inferencia de Vertex AI.
¿Qué es DCGM?
NVIDIA Data Center GPU Manager (DCGM) es un conjunto de herramientas de NVIDIA que te permiten gestionar y monitorizar GPUs de NVIDIA. Vertex AI Inference exporta automáticamente métricas de Vertex AI DCGM a Cloud Monitoring si tus endpoints utilizan GPUs compatibles. Estas métricas ofrecen una visión completa del uso, el rendimiento y el estado de la GPU.
Requisitos previos
Antes de empezar, comprueba que Cloud Monitoring esté habilitado en tu proyecto. Consulta más información en el artículo sobre cómo habilitar la API Monitoring.
Usar métricas de DCGM
Para ver las métricas de DCGM en el explorador de métricas, haz lo siguiente:
Ve a la página Explorador de métricas de la consola de Google Cloud .
En Seleccionar una métrica, elige Objetivo de Prometheus.
En Categorías de métricas activas, selecciona Vertex.
En Métricas activas, seleccione la métrica que quiera.
Haz clic en Aplicar.
También puedes consultar métricas con Grafana o la API o la interfaz de usuario de Prometheus.
Cuota
Las métricas de DCGM consumen la cuota Solicitudes de ingestión de series temporales por minuto de la API de Cloud Monitoring. Antes de habilitar los paquetes de métricas, consulta el pico de uso reciente de esa cuota. Si ya te estás acercando a ese límite, puedes solicitar que se aumente.
Métricas de DCGM de Vertex AI
Los nombres de métricas de Cloud Monitoring de esta tabla deben tener el prefijo prometheus.googleapis.com/
. Se ha omitido ese prefijo en las entradas de la tabla.
Además de las etiquetas del recurso monitorizado prometheus_target
, todas las métricas de DCGM recogidas en Vertex AI tienen las siguientes etiquetas asociadas:
Etiquetas de GPU:
gpu_model
: el modelo del dispositivo de GPU, comoNVIDIA L4
.gpu_uuid
: el UUID del dispositivo de GPU.gpu_i_id
: el ID de instancia de GPU multiinstancia (MIG) de NVIDIA.
Etiquetas de Vertex AI:
-
deployed_model_id
: el ID de un modelo desplegado que sirve solicitudes de inferencia. model_display_name
: el nombre visible de un modelo implementado.-
replica_id
: el ID único correspondiente a la réplica del modelo implementado (nombre del pod). endpoint_id
: el ID de un endpoint de modelo.endpoint_display_name
: el nombre visible de un endpoint de modelo.-
product
: el nombre de la función de Vertex AI. Siempre esOnline Inference
.
Nombre de métrica de PromQL Nombre de métrica de Cloud Monitoring |
|
---|---|
Tipo, unidad
Recursos monitorizados | Descripción |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Memoria de almacenamiento intermedio libre (MB). |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Búfer de fotogramas total de la GPU en MB. |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Memoria de almacenamiento intermedio usada (MB). |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Lecturas de temperatura actuales del dispositivo (en °C). |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Uso de la GPU (en %). |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Uso de memoria (en %). |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Temperatura de la memoria del dispositivo (en °C). |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Consumo de energía del dispositivo (en vatios). |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Frecuencia de reloj de SM (en MHz). |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE , DOUBLE , 1
prometheus_target
|
Consumo total de energía de la GPU en mJ desde la última vez que se recargó el controlador. |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
La proporción de ciclos en los que la interfaz de memoria del dispositivo está activa enviando o recibiendo datos. |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
La proporción de tiempo que el motor gráfico está activo. |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Tasa de datos de lectura (rx) de NvLink activos en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Tasa de datos de transmisión NvLink activos en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Tasa de datos de recepción (lectura) de PCIe activos en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
La tasa de datos de transmisión PCIe activos en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
La proporción de ciclos en los que está activa la canalización fp16. |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
La proporción de ciclos en los que está activa la canalización fp32. |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la proporción de ciclos en los que está activo el canal fp64. |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
La proporción de ciclos en los que está activo cualquier tensor pipe. |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la proporción de ciclos en los que un SM tiene al menos un warp asignado. |
GPUs compatibles
Se admiten todas las GPUs de NVIDIA, excepto las siguientes, debido a las restricciones de recursos:
Siguientes pasos
- Consulte más información sobre el Explorador de métricas.