Nesta página, mostramos como analisar as métricas do NVIDIA Data Center GPU Manager (DCGM) associadas aos endpoints de inferência da Vertex AI.
O que é o DCGM?
O NVIDIA Data Center GPU Manager (DCGM) é um conjunto de ferramentas da NVIDIA que permitem gerenciar e monitorar GPUs NVIDIA. A inferência da Vertex AI exporta automaticamente as métricas do DCGM da Vertex AI para o Cloud Monitoring se os endpoints usarem GPUs compatíveis. Essas métricas oferecem uma visão abrangente da utilização, do desempenho e da integridade da GPU.
Pré-requisitos
Antes de começar, verifique se o Cloud Monitoring está ativado no projeto. Consulte Ativar a API Monitoring para mais informações.
Usar métricas do DCGM
Para conferir as métricas do DCGM no Metrics Explorer, faça o seguinte:
Acesse a página do Metrics Explorer no console do Google Cloud .
Em Selecionar uma métrica, escolha Destino do Prometheus.
Em Categorias de métricas ativas, selecione Vertex.
Em Métricas ativas, selecione a métrica desejada.
Clique em Aplicar.
Também é possível consultar métricas usando o Grafana ou a API ou interface do Prometheus.
Cota
As métricas do DCGM consomem a cota de Solicitações de ingestão de séries temporais por minuto da API Cloud Monitoring. Antes de ativar os pacotes de métricas, verifique o pico de uso recente dessa cota. Se você já estiver se aproximando desse limite, solicite um aumento.
Métricas do DCGM da Vertex AI
Os nomes das métricas do Cloud Monitoring nesta tabela precisam ser prefixados com
prometheus.googleapis.com/
. Esse prefixo foi omitido das
entradas na tabela.
Além dos rótulos no recurso monitorado prometheus_target
, todas as métricas do DCGM coletadas na Vertex AI têm os seguintes rótulos anexados:
Rótulos da GPU:
gpu_model
: o modelo do dispositivo de GPU, comoNVIDIA L4
.gpu_uuid
: o UUID do dispositivo da GPU.gpu_i_id
: o ID da instância de GPU com várias instâncias (MIG) da NVIDIA.
Rótulos da Vertex AI:
-
deployed_model_id
: o ID de um modelo implantado que atende a solicitações de inferência. model_display_name
: o nome de exibição de um modelo implantado.-
replica_id
: o ID exclusivo correspondente à réplica do modelo implantado (nome do pod). endpoint_id
: o ID de um endpoint de modelo.endpoint_display_name
: o nome de exibição de um endpoint de modelo.-
product
: o nome do recurso na Vertex AI. Esse valor é sempreOnline Inference
.
Nome da métrica do PromQL Nome da métrica do Cloud Monitoring |
|
---|---|
Tipo, Classe, Unidade
Recursos monitorados | Descrição |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Framebuffer livre em MB. |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Framebuffer total da GPU em MB. |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Framebuffer usado em MB. |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Leituras atuais de temperatura do dispositivo (em °C). |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Uso da GPU (em %). |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Uso da memória (em %). |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Temperatura da memória do dispositivo (em °C). |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Consumo de energia do dispositivo (em watts). |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Frequência do clock do SM (em MHz). |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE , DOUBLE , 1
prometheus_target
|
Consumo de energia total da GPU em mJ desde a última recarga do driver. |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que a interface de memória do dispositivo está ativa enviando ou recebendo dados. |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de tempo em que o motor gráfico está ativo. |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A taxa de dados ativos de rx (leitura) do NvLink em bytes, incluindo cabeçalho e payload. |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A taxa de dados ativos de tx (transmissão) do NvLink em bytes, incluindo cabeçalho e payload. |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A taxa de dados ativos de rx (leitura) do PCIe em bytes, incluindo cabeçalho e payload. |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A taxa de dados ativos de tx (transmissão) do PCIe em bytes, incluindo cabeçalho e payload. |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que o pipe fp16 está ativo. |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que o pipe fp32 está ativo. |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que o pipe fp64 está ativo. |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que qualquer pipe tensor está ativo. |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
A proporção de ciclos em que uma SM tem pelo menos um warp atribuído. |
GPUs com suporte
Todas as GPUs NVIDIA são compatíveis, exceto as seguintes, devido a restrições de recursos:
A seguir
- Saiba mais sobre o Metrics Explorer.