En esta página, se explica cómo explorar las métricas del administrador de GPU del centro de datos de NVIDIA (DCGM) asociadas con tus extremos de Vertex AI Inference.
¿Qué es DCGM?
El administrador de GPU del centro de datos de NVIDIA (DCGM) es un conjunto de herramientas de NVIDIA que te permiten administrar y supervisar las GPU de NVIDIA. Vertex AI Inference exporta automáticamente las métricas de DCGM de Vertex AI a Cloud Monitoring si tus extremos utilizan GPUs compatibles. Estas métricas proporcionan una vista integral de la utilización, el rendimiento y el estado de la GPU.
Requisitos previos
Antes de comenzar, asegúrate de que tu proyecto tenga habilitado Cloud Monitoring. Consulta Habilita la API de Monitoring para obtener más información.
Usa las métricas de DCGM
Para ver las métricas de DCGM en el Explorador de métricas, haz lo siguiente:
Ve a la página Explorador de métricas en la consola de Google Cloud .
En Selecciona una métrica, elige Prometheus Target.
En Categorías de métricas activas, selecciona Vertex.
En Métricas activas, selecciona la métrica deseada.
Haz clic en Aplicar.
También puedes consultar las métricas con Grafana o la API o IU de Prometheus.
Cuota
Las métricas de DCGM consumen la cuota de solicitudes de transferencia de series temporales por minuto de la API de Cloud Monitoring. Antes de habilitar los paquetes de métricas, verifica tu uso máximo reciente de esa cuota. Si ya te estás acercando a ese límite de cuota, puedes solicitar un aumento del límite de cuota.
Métricas de DCGM de Vertex AI
Los nombres de las métricas de Cloud Monitoring que figuran en esta tabla deben tener el prefijo
prometheus.googleapis.com/
. Sin embargo, el prefijo se omitió en las
entradas de la tabla.
Junto con las etiquetas del recurso supervisado prometheus_target
, todas las métricas de DCGM recopiladas en Vertex AI tienen las siguientes etiquetas adjuntas:
Etiquetas de GPU:
gpu_model
: Es el modelo del dispositivo de GPU, comoNVIDIA L4
.gpu_uuid
: Es el UUID del dispositivo de GPU.gpu_i_id
: Es el ID de la instancia de GPU de varias instancias (MIG) de NVIDIA.
Etiquetas de Vertex AI:
-
deployed_model_id
: Es el ID de un modelo implementado que procesa solicitudes de inferencia. model_display_name
: Es el nombre visible de un modelo implementado.-
replica_id
: Es el ID único que corresponde a la réplica del modelo implementado (nombre del Pod). endpoint_id
: Es el ID de un extremo del modelo.endpoint_display_name
: Es el nombre visible de un extremo del modelo.-
product
: Es el nombre de la función en Vertex AI. Siempre esOnline Inference
.
Nombre de la métrica de PromQL Nombre de la métrica de Cloud Monitoring |
|
---|---|
Clase, tipo, unidad
Recursos supervisados | Descripción |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Búfer de fotogramas libre en MB. |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es el búfer de fotogramas total de la GPU en MB. |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es el búfer de fotogramas utilizado en MB. |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Son las lecturas de temperatura actuales del dispositivo (en °C). |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es el porcentaje de uso de la GPU. |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Porcentaje de uso de memoria. |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la temperatura de la memoria del dispositivo (en °C). |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Uso de energía del dispositivo (en vatios). |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Frecuencia de reloj de SM (en MHz). |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE , DOUBLE , 1
prometheus_target
|
Consumo total de energía de la GPU en mJ desde la última vez que se volvió a cargar el controlador. |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la proporción de ciclos en los que la interfaz de memoria del dispositivo está activa enviando o recibiendo datos. |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la proporción de tiempo en que el motor de gráficos está activo. |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la tasa de datos de recepción (lectura) de NvLink activos en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la tasa de datos de transmisión (tx) de NvLink activos en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la tasa de datos activos de PCIe rx (lectura) en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la tasa de datos de transmisión (tx) de PCIe activos en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la proporción de ciclos en los que la canalización de fp16 está activa. |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la proporción de ciclos en los que la canalización de fp32 está activa. |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la proporción de ciclos en los que la canalización de FP64 está activa. |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la proporción de ciclos en los que cualquier canalización de tensor está activa. |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Es la proporción de ciclos en los que un SM tiene al menos 1 warp asignado. |
GPU compatibles
Se admiten todas las GPU de NVIDIA, excepto las siguientes, debido a limitaciones de recursos:
¿Qué sigue?
- Obtén más información sobre el Explorador de métricas.