Ver las métricas de DCGM de la inferencia de Vertex AI

En esta página se explica cómo consultar las métricas de NVIDIA Data Center GPU Manager (DCGM) asociadas a sus endpoints de inferencia de Vertex AI.

¿Qué es DCGM?

NVIDIA Data Center GPU Manager (DCGM) es un conjunto de herramientas de NVIDIA que te permiten gestionar y monitorizar GPUs de NVIDIA. Vertex AI Inference exporta automáticamente métricas de Vertex AI DCGM a Cloud Monitoring si tus endpoints utilizan GPUs compatibles. Estas métricas ofrecen una visión completa del uso, el rendimiento y el estado de la GPU.

Requisitos previos

Antes de empezar, comprueba que Cloud Monitoring esté habilitado en tu proyecto. Consulta más información en el artículo sobre cómo habilitar la API Monitoring.

Usar métricas de DCGM

Para ver las métricas de DCGM en el explorador de métricas, haz lo siguiente:

  1. Ve a la página Explorador de métricas de la consola de Google Cloud .

    Ir a Explorador de métricas

  2. En Seleccionar una métrica, elige Objetivo de Prometheus.

  3. En Categorías de métricas activas, selecciona Vertex.

  4. En Métricas activas, seleccione la métrica que quiera.

  5. Haz clic en Aplicar.

También puedes consultar métricas con Grafana o la API o la interfaz de usuario de Prometheus.

Cuota

Las métricas de DCGM consumen la cuota Solicitudes de ingestión de series temporales por minuto de la API de Cloud Monitoring. Antes de habilitar los paquetes de métricas, consulta el pico de uso reciente de esa cuota. Si ya te estás acercando a ese límite, puedes solicitar que se aumente.

Métricas de DCGM de Vertex AI

Los nombres de métricas de Cloud Monitoring de esta tabla deben tener el prefijo prometheus.googleapis.com/. Se ha omitido ese prefijo en las entradas de la tabla.

Además de las etiquetas del recurso monitorizado prometheus_target, todas las métricas de DCGM recogidas en Vertex AI tienen las siguientes etiquetas asociadas:

Etiquetas de GPU:

  • gpu_model: el modelo del dispositivo de GPU, como NVIDIA L4.
  • gpu_uuid: el UUID del dispositivo de GPU.
  • gpu_i_id: el ID de instancia de GPU multiinstancia (MIG) de NVIDIA.

Etiquetas de Vertex AI:

  • deployed_model_id: el ID de un modelo desplegado que sirve solicitudes de inferencia.
  • model_display_name: el nombre visible de un modelo implementado.
  • replica_id: el ID único correspondiente a la réplica del modelo implementado (nombre del pod).
  • endpoint_id: el ID de un endpoint de modelo.
  • endpoint_display_name: el nombre visible de un endpoint de modelo.
  • product: el nombre de la función de Vertex AI. Siempre es Online Inference.
Nombre de métrica de PromQL
Nombre de métrica de Cloud Monitoring
Tipo, unidad
Recursos monitorizados
Descripción
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target Memoria de almacenamiento intermedio libre (MB).
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target Búfer de fotogramas total de la GPU en MB.
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target Memoria de almacenamiento intermedio usada (MB).
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target Lecturas de temperatura actuales del dispositivo (en °C).
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target Uso de la GPU (en %).
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target Uso de memoria (en %).
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target Temperatura de la memoria del dispositivo (en °C).
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target Consumo de energía del dispositivo (en vatios).
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target Frecuencia de reloj de SM (en MHz).
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target Consumo total de energía de la GPU en mJ desde la última vez que se recargó el controlador.
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target La proporción de ciclos en los que la interfaz de memoria del dispositivo está activa enviando o recibiendo datos.
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target La proporción de tiempo que el motor gráfico está activo.
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Tasa de datos de lectura (rx) de NvLink activos en bytes, incluidos el encabezado y la carga útil.
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Tasa de datos de transmisión NvLink activos en bytes, incluidos el encabezado y la carga útil.
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Tasa de datos de recepción (lectura) de PCIe activos en bytes, incluidos el encabezado y la carga útil.
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target La tasa de datos de transmisión PCIe activos en bytes, incluidos el encabezado y la carga útil.
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target La proporción de ciclos en los que está activa la canalización fp16.
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target La proporción de ciclos en los que está activa la canalización fp32.
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target Es la proporción de ciclos en los que está activo el canal fp64.
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target La proporción de ciclos en los que está activo cualquier tensor pipe.
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target Es la proporción de ciclos en los que un SM tiene al menos un warp asignado.

GPUs compatibles

Se admiten todas las GPUs de NVIDIA, excepto las siguientes, debido a las restricciones de recursos:

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA T4

Siguientes pasos