Esta página se ha traducido con Cloud Translation API.

Ver las métricas de DCGM de la inferencia de Vertex AI

En esta página se explica cómo consultar las métricas de NVIDIA Data Center GPU Manager (DCGM) asociadas a sus endpoints de inferencia de Vertex AI.

¿Qué es DCGM?

NVIDIA Data Center GPU Manager (DCGM) es un conjunto de herramientas de NVIDIA que te permiten gestionar y monitorizar GPUs de NVIDIA. Vertex AI Inference exporta automáticamente métricas de Vertex AI DCGM a Cloud Monitoring si tus endpoints utilizan GPUs compatibles. Estas métricas ofrecen una visión completa del uso, el rendimiento y el estado de la GPU.

Requisitos previos

Antes de empezar, comprueba que Cloud Monitoring esté habilitado en tu proyecto. Consulta más información en el artículo sobre cómo habilitar la API Monitoring.

Usar métricas de DCGM

Para ver las métricas de DCGM en el explorador de métricas, haz lo siguiente:

Ve a la página Explorador de métricas de la consola de Google Cloud .

Ir a Explorador de métricas
En Seleccionar una métrica, elige Objetivo de Prometheus.
En Categorías de métricas activas, selecciona Vertex.
En Métricas activas, seleccione la métrica que quiera.
Haz clic en Aplicar.

También puedes consultar métricas con Grafana o la API o la interfaz de usuario de Prometheus.

Cuota

Las métricas de DCGM consumen la cuota Solicitudes de ingestión de series temporales por minuto de la API de Cloud Monitoring. Antes de habilitar los paquetes de métricas, consulta el pico de uso reciente de esa cuota. Si ya te estás acercando a ese límite, puedes solicitar que se aumente.

Métricas de DCGM de Vertex AI

Los nombres de métricas de Cloud Monitoring de esta tabla deben tener el prefijo prometheus.googleapis.com/. Se ha omitido ese prefijo en las entradas de la tabla.

Además de las etiquetas del recurso monitorizado prometheus_target, todas las métricas de DCGM recogidas en Vertex AI tienen las siguientes etiquetas asociadas:

Etiquetas de GPU:

gpu_model: el modelo del dispositivo de GPU, como NVIDIA L4.
gpu_uuid: el UUID del dispositivo de GPU.
gpu_i_id: el ID de instancia de GPU multiinstancia (MIG) de NVIDIA.

Etiquetas de Vertex AI:

deployed_model_id: el ID de un modelo desplegado que sirve solicitudes de inferencia.
model_display_name: el nombre visible de un modelo implementado.
replica_id: el ID único correspondiente a la réplica del modelo implementado (nombre del pod).
endpoint_id: el ID de un endpoint de modelo.
endpoint_display_name: el nombre visible de un endpoint de modelo.
product: el nombre de la función de Vertex AI. Siempre es Online Inference.

Nombre de métrica de PromQL Nombre de métrica de Cloud Monitoring
Tipo, unidad Recursos monitorizados	Descripción
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Memoria de almacenamiento intermedio libre (MB).
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Búfer de fotogramas total de la GPU en MB.
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Memoria de almacenamiento intermedio usada (MB).
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Lecturas de temperatura actuales del dispositivo (en °C).
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Uso de la GPU (en %).
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Uso de memoria (en %).
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Temperatura de la memoria del dispositivo (en °C).
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Consumo de energía del dispositivo (en vatios).
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Frecuencia de reloj de SM (en MHz).
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target	Consumo total de energía de la GPU en mJ desde la última vez que se recargó el controlador.
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	La proporción de ciclos en los que la interfaz de memoria del dispositivo está activa enviando o recibiendo datos.
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	La proporción de tiempo que el motor gráfico está activo.
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Tasa de datos de lectura (rx) de NvLink activos en bytes, incluidos el encabezado y la carga útil.
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Tasa de datos de transmisión NvLink activos en bytes, incluidos el encabezado y la carga útil.
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Tasa de datos de recepción (lectura) de PCIe activos en bytes, incluidos el encabezado y la carga útil.
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	La tasa de datos de transmisión PCIe activos en bytes, incluidos el encabezado y la carga útil.
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	La proporción de ciclos en los que está activa la canalización fp16.
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	La proporción de ciclos en los que está activa la canalización fp32.
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la proporción de ciclos en los que está activo el canal fp64.
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	La proporción de ciclos en los que está activo cualquier tensor pipe.
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la proporción de ciclos en los que un SM tiene al menos un warp asignado.

GPUs compatibles

Se admiten todas las GPUs de NVIDIA, excepto las siguientes, debido a las restricciones de recursos:

Siguientes pasos

Consulte más información sobre el Explorador de métricas.

Ver las métricas de DCGM de la inferencia de Vertex AI Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.