Consulta las métricas de DCGM de Vertex AI Inference

En esta página, se explica cómo explorar las métricas del administrador de GPU del centro de datos de NVIDIA (DCGM) asociadas con tus extremos de Vertex AI Inference.

¿Qué es DCGM?

El administrador de GPU del centro de datos de NVIDIA (DCGM) es un conjunto de herramientas de NVIDIA que te permiten administrar y supervisar las GPU de NVIDIA. Vertex AI Inference exporta automáticamente las métricas de DCGM de Vertex AI a Cloud Monitoring si tus extremos utilizan GPUs compatibles. Estas métricas proporcionan una vista integral de la utilización, el rendimiento y el estado de la GPU.

Requisitos previos

Antes de comenzar, asegúrate de que tu proyecto tenga habilitado Cloud Monitoring. Consulta Habilita la API de Monitoring para obtener más información.

Usa las métricas de DCGM

Para ver las métricas de DCGM en el Explorador de métricas, haz lo siguiente:

  1. Ve a la página Explorador de métricas en la consola de Google Cloud .

    Ir al Explorador de métricas

  2. En Selecciona una métrica, elige Prometheus Target.

  3. En Categorías de métricas activas, selecciona Vertex.

  4. En Métricas activas, selecciona la métrica deseada.

  5. Haz clic en Aplicar.

También puedes consultar las métricas con Grafana o la API o IU de Prometheus.

Cuota

Las métricas de DCGM consumen la cuota de solicitudes de transferencia de series temporales por minuto de la API de Cloud Monitoring. Antes de habilitar los paquetes de métricas, verifica tu uso máximo reciente de esa cuota. Si ya te estás acercando a ese límite de cuota, puedes solicitar un aumento del límite de cuota.

Métricas de DCGM de Vertex AI

Los nombres de las métricas de Cloud Monitoring que figuran en esta tabla deben tener el prefijo prometheus.googleapis.com/. Sin embargo, el prefijo se omitió en las entradas de la tabla.

Junto con las etiquetas del recurso supervisado prometheus_target, todas las métricas de DCGM recopiladas en Vertex AI tienen las siguientes etiquetas adjuntas:

Etiquetas de GPU:

  • gpu_model: Es el modelo del dispositivo de GPU, como NVIDIA L4.
  • gpu_uuid: Es el UUID del dispositivo de GPU.
  • gpu_i_id: Es el ID de la instancia de GPU de varias instancias (MIG) de NVIDIA.

Etiquetas de Vertex AI:

  • deployed_model_id: Es el ID de un modelo implementado que procesa solicitudes de inferencia.
  • model_display_name: Es el nombre visible de un modelo implementado.
  • replica_id: Es el ID único que corresponde a la réplica del modelo implementado (nombre del Pod).
  • endpoint_id: Es el ID de un extremo del modelo.
  • endpoint_display_name: Es el nombre visible de un extremo del modelo.
  • product: Es el nombre de la función en Vertex AI. Siempre es Online Inference.
Nombre de la métrica de PromQL
Nombre de la métrica de Cloud Monitoring
Clase, tipo, unidad
Recursos supervisados
Descripción
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target Búfer de fotogramas libre en MB.
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target Es el búfer de fotogramas total de la GPU en MB.
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target Es el búfer de fotogramas utilizado en MB.
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target Son las lecturas de temperatura actuales del dispositivo (en °C).
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target Es el porcentaje de uso de la GPU.
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target Porcentaje de uso de memoria.
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target Es la temperatura de la memoria del dispositivo (en °C).
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target Uso de energía del dispositivo (en vatios).
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target Frecuencia de reloj de SM (en MHz).
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target Consumo total de energía de la GPU en mJ desde la última vez que se volvió a cargar el controlador.
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target Es la proporción de ciclos en los que la interfaz de memoria del dispositivo está activa enviando o recibiendo datos.
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target Es la proporción de tiempo en que el motor de gráficos está activo.
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Es la tasa de datos de recepción (lectura) de NvLink activos en bytes, incluidos el encabezado y la carga útil.
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Es la tasa de datos de transmisión (tx) de NvLink activos en bytes, incluidos el encabezado y la carga útil.
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Es la tasa de datos activos de PCIe rx (lectura) en bytes, incluidos el encabezado y la carga útil.
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Es la tasa de datos de transmisión (tx) de PCIe activos en bytes, incluidos el encabezado y la carga útil.
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target Es la proporción de ciclos en los que la canalización de fp16 está activa.
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target Es la proporción de ciclos en los que la canalización de fp32 está activa.
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target Es la proporción de ciclos en los que la canalización de FP64 está activa.
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target Es la proporción de ciclos en los que cualquier canalización de tensor está activa.
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target Es la proporción de ciclos en los que un SM tiene al menos 1 warp asignado.

GPU compatibles

Se admiten todas las GPU de NVIDIA, excepto las siguientes, debido a limitaciones de recursos:

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA® T4:

¿Qué sigue?