Esta página aborda como explorar as métricas do NVIDIA Data Center GPU Manager (DCGM) associadas aos seus pontos finais de inferência da Vertex AI.
O que é o DCGM
O NVIDIA Data Center GPU Manager (DCGM) é um conjunto de ferramentas da NVIDIA que lhe permite gerir e monitorizar GPUs NVIDIA. A inferência da Vertex AI exporta automaticamente as métricas do DCGM da Vertex AI para o Cloud Monitoring se os seus pontos finais usarem GPUs suportadas. Essas métricas oferecem uma vista abrangente da utilização, do desempenho e do estado da GPU.
Pré-requisitos
Antes de começar, certifique-se de que o seu projeto tem o Cloud Monitoring ativado. Consulte o artigo Ative a API Monitoring para mais informações.
Use métricas do DCGM
Para ver as métricas do DCGM no Explorador de métricas, faça o seguinte:
Aceda à página Explorador de métricas na Google Cloud consola.
Em Selecionar uma métrica, selecione Alvo do Prometheus.
Em Categorias de métricas ativas, selecione Vertex.
Em Métricas ativas, selecione a métrica pretendida.
Clique em Aplicar.
Também pode consultar métricas através do Grafana, ou da API ou IU do Prometheus.
Quota
As métricas do DCGM consomem a quota de pedidos de carregamento de séries cronológicas por minuto da API Cloud Monitoring. Antes de ativar os pacotes de métricas, verifique a sua utilização máxima recente dessa quota. Se já estiver a aproximar-se desse limite de quota, pode pedir um aumento do limite de quota.
Métricas do DCGM da Vertex AI
Os nomes das métricas do Cloud Monitoring nesta tabela têm de ter o prefixo prometheus.googleapis.com/
. Esse prefixo foi omitido das entradas na tabela.
Juntamente com as etiquetas no recurso monitorizado prometheus_target
, todas as métricas DCGM recolhidas no Vertex AI têm as seguintes etiquetas anexadas:
Etiquetas de GPU:
gpu_model
: o modelo do dispositivo GPU, comoNVIDIA L4
.gpu_uuid
: o UUID do dispositivo GPU.gpu_i_id
: o ID da instância da GPU multi-instância (MIG) da NVIDIA.
Etiquetas do Vertex AI:
-
deployed_model_id
: o ID de um modelo implementado que publica pedidos de inferência. model_display_name
: o nome a apresentar de um modelo implementado.-
replica_id
: o ID exclusivo correspondente à réplica do modelo implementado (nome do pod). endpoint_id
: o ID de um ponto final do modelo.endpoint_display_name
: o nome a apresentar de um ponto final do modelo.-
product
: o nome da funcionalidade no Vertex AI. Esta opção está sempreOnline Inference
.
Nome da métrica PromQL Nome da métrica do Cloud Monitoring |
|
---|---|
Kind, Type, Unit
Recursos monitorizados | Descrição |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Memória intermédia de fotogramas livre em MB. |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Buffer de frames total da GPU em MB. |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Memória intermédia de fotogramas usada em MB. |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Leituras de temperatura atuais do dispositivo (em °C). |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Utilização da GPU (em %). |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Utilização da memória (em %). |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Temperatura da memória do dispositivo (em °C). |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Utilização de energia do dispositivo (em Watts). |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Frequência do relógio SM (em MHz). |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE , DOUBLE , 1
prometheus_target
|
Consumo energético total da GPU em mJ desde que o controlador foi recarregado pela última vez. |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que a interface de memória do dispositivo está ativa a enviar ou receber dados. |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção do tempo em que o motor gráfico está ativo. |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A taxa de dados de leitura (rx) NvLink ativos em bytes, incluindo o cabeçalho e o payload. |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A taxa de dados de tx (transmissão) NvLink ativos em bytes, incluindo o cabeçalho e o payload. |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A taxa de dados de leitura (rx) de PCIe ativos em bytes, incluindo o cabeçalho e a carga útil. |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A taxa de dados de transmissão (tx) PCIe ativos em bytes, incluindo o cabeçalho e a carga útil. |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que o pipeline fp16 está ativo. |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A relação de ciclos em que o pipeline fp32 está ativo. |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que o pipeline fp64 está ativo. |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que qualquer tensor pipe está ativo. |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que um SM tem, pelo menos, 1 warp atribuído. |
GPUs suportadas
Todas as GPUs NVIDIA são suportadas, exceto as seguintes, devido a restrições de recursos:
O que se segue?
- Saiba mais sobre o Explorador de métricas.