Veja as métricas DCGM da inferência do Vertex AI

Esta página aborda como explorar as métricas do NVIDIA Data Center GPU Manager (DCGM) associadas aos seus pontos finais de inferência da Vertex AI.

O que é o DCGM

O NVIDIA Data Center GPU Manager (DCGM) é um conjunto de ferramentas da NVIDIA que lhe permite gerir e monitorizar GPUs NVIDIA. A inferência da Vertex AI exporta automaticamente as métricas do DCGM da Vertex AI para o Cloud Monitoring se os seus pontos finais usarem GPUs suportadas. Essas métricas oferecem uma vista abrangente da utilização, do desempenho e do estado da GPU.

Pré-requisitos

Antes de começar, certifique-se de que o seu projeto tem o Cloud Monitoring ativado. Consulte o artigo Ative a API Monitoring para mais informações.

Use métricas do DCGM

Para ver as métricas do DCGM no Explorador de métricas, faça o seguinte:

  1. Aceda à página Explorador de métricas na Google Cloud consola.

    Aceda ao Metrics Explorer

  2. Em Selecionar uma métrica, selecione Alvo do Prometheus.

  3. Em Categorias de métricas ativas, selecione Vertex.

  4. Em Métricas ativas, selecione a métrica pretendida.

  5. Clique em Aplicar.

Também pode consultar métricas através do Grafana, ou da API ou IU do Prometheus.

Quota

As métricas do DCGM consomem a quota de pedidos de carregamento de séries cronológicas por minuto da API Cloud Monitoring. Antes de ativar os pacotes de métricas, verifique a sua utilização máxima recente dessa quota. Se já estiver a aproximar-se desse limite de quota, pode pedir um aumento do limite de quota.

Métricas do DCGM da Vertex AI

Os nomes das métricas do Cloud Monitoring nesta tabela têm de ter o prefixo prometheus.googleapis.com/. Esse prefixo foi omitido das entradas na tabela.

Juntamente com as etiquetas no recurso monitorizado prometheus_target, todas as métricas DCGM recolhidas no Vertex AI têm as seguintes etiquetas anexadas:

Etiquetas de GPU:

  • gpu_model: o modelo do dispositivo GPU, como NVIDIA L4.
  • gpu_uuid: o UUID do dispositivo GPU.
  • gpu_i_id: o ID da instância da GPU multi-instância (MIG) da NVIDIA.

Etiquetas do Vertex AI:

  • deployed_model_id: o ID de um modelo implementado que publica pedidos de inferência.
  • model_display_name: o nome a apresentar de um modelo implementado.
  • replica_id: o ID exclusivo correspondente à réplica do modelo implementado (nome do pod).
  • endpoint_id: o ID de um ponto final do modelo.
  • endpoint_display_name: o nome a apresentar de um ponto final do modelo.
  • product: o nome da funcionalidade no Vertex AI. Esta opção está sempre Online Inference.
Nome da métrica PromQL
Nome da métrica do Cloud Monitoring
Kind, Type, Unit
Recursos monitorizados
Descrição
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target Memória intermédia de fotogramas livre em MB.
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target Buffer de frames total da GPU em MB.
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target Memória intermédia de fotogramas usada em MB.
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target Leituras de temperatura atuais do dispositivo (em °C).
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target Utilização da GPU (em %).
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target Utilização da memória (em %).
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target Temperatura da memória do dispositivo (em °C).
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target Utilização de energia do dispositivo (em Watts).
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target Frequência do relógio SM (em MHz).
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target Consumo energético total da GPU em mJ desde que o controlador foi recarregado pela última vez.
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que a interface de memória do dispositivo está ativa a enviar ou receber dados.
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção do tempo em que o motor gráfico está ativo.
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target A taxa de dados de leitura (rx) NvLink ativos em bytes, incluindo o cabeçalho e o payload.
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target A taxa de dados de tx (transmissão) NvLink ativos em bytes, incluindo o cabeçalho e o payload.
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target A taxa de dados de leitura (rx) de PCIe ativos em bytes, incluindo o cabeçalho e a carga útil.
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target A taxa de dados de transmissão (tx) PCIe ativos em bytes, incluindo o cabeçalho e a carga útil.
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que o pipeline fp16 está ativo.
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target A relação de ciclos em que o pipeline fp32 está ativo.
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que o pipeline fp64 está ativo.
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que qualquer tensor pipe está ativo.
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target A proporção de ciclos em que um SM tem, pelo menos, 1 warp atribuído.

GPUs suportadas

Todas as GPUs NVIDIA são suportadas, exceto as seguintes, devido a restrições de recursos:

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA T4

O que se segue?