Conferir métricas do DCGM de inferência da Vertex AI

Nesta página, mostramos como analisar as métricas do NVIDIA Data Center GPU Manager (DCGM) associadas aos endpoints de inferência da Vertex AI.

O que é o DCGM?

O NVIDIA Data Center GPU Manager (DCGM) é um conjunto de ferramentas da NVIDIA que permitem gerenciar e monitorar GPUs NVIDIA. A inferência da Vertex AI exporta automaticamente as métricas do DCGM da Vertex AI para o Cloud Monitoring se os endpoints usarem GPUs compatíveis. Essas métricas oferecem uma visão abrangente da utilização, do desempenho e da integridade da GPU.

Pré-requisitos

Antes de começar, verifique se o Cloud Monitoring está ativado no projeto. Consulte Ativar a API Monitoring para mais informações.

Usar métricas do DCGM

Para conferir as métricas do DCGM no Metrics Explorer, faça o seguinte:

  1. Acesse a página do Metrics Explorer no console do Google Cloud .

    Acessar o Metrics Explorer

  2. Em Selecionar uma métrica, escolha Destino do Prometheus.

  3. Em Categorias de métricas ativas, selecione Vertex.

  4. Em Métricas ativas, selecione a métrica desejada.

  5. Clique em Aplicar.

Também é possível consultar métricas usando o Grafana ou a API ou interface do Prometheus.

Cota

As métricas do DCGM consomem a cota de Solicitações de ingestão de séries temporais por minuto da API Cloud Monitoring. Antes de ativar os pacotes de métricas, verifique o pico de uso recente dessa cota. Se você já estiver se aproximando desse limite, solicite um aumento.

Métricas do DCGM da Vertex AI

Os nomes das métricas do Cloud Monitoring nesta tabela precisam ser prefixados com prometheus.googleapis.com/. Esse prefixo foi omitido das entradas na tabela.

Além dos rótulos no recurso monitorado prometheus_target, todas as métricas do DCGM coletadas na Vertex AI têm os seguintes rótulos anexados:

Rótulos da GPU:

  • gpu_model: o modelo do dispositivo de GPU, como NVIDIA L4.
  • gpu_uuid: o UUID do dispositivo da GPU.
  • gpu_i_id: o ID da instância de GPU com várias instâncias (MIG) da NVIDIA.

Rótulos da Vertex AI:

  • deployed_model_id: o ID de um modelo implantado que atende a solicitações de inferência.
  • model_display_name: o nome de exibição de um modelo implantado.
  • replica_id: o ID exclusivo correspondente à réplica do modelo implantado (nome do pod).
  • endpoint_id: o ID de um endpoint de modelo.
  • endpoint_display_name: o nome de exibição de um endpoint de modelo.
  • product: o nome do recurso na Vertex AI. Esse valor é sempre Online Inference.
Nome da métrica do PromQL
Nome da métrica do Cloud Monitoring
Tipo, Classe, Unidade
Recursos monitorados
Descrição
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target Framebuffer livre em MB.
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target Framebuffer total da GPU em MB.
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target Framebuffer usado em MB.
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target Leituras atuais de temperatura do dispositivo (em °C).
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target Uso da GPU (em %).
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target Uso da memória (em %).
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target Temperatura da memória do dispositivo (em °C).
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target Consumo de energia do dispositivo (em watts).
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target Frequência do clock do SM (em MHz).
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target Consumo de energia total da GPU em mJ desde a última recarga do driver.
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que a interface de memória do dispositivo está ativa enviando ou recebendo dados.
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de tempo em que o motor gráfico está ativo.
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target A taxa de dados ativos de rx (leitura) do NvLink em bytes, incluindo cabeçalho e payload.
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target A taxa de dados ativos de tx (transmissão) do NvLink em bytes, incluindo cabeçalho e payload.
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target A taxa de dados ativos de rx (leitura) do PCIe em bytes, incluindo cabeçalho e payload.
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target A taxa de dados ativos de tx (transmissão) do PCIe em bytes, incluindo cabeçalho e payload.
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que o pipe fp16 está ativo.
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que o pipe fp32 está ativo.
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que o pipe fp64 está ativo.
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que qualquer pipe tensor está ativo.
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que uma SM tem pelo menos um warp atribuído.

GPUs com suporte

Todas as GPUs NVIDIA são compatíveis, exceto as seguintes, devido a restrições de recursos:

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA T4

A seguir