Esta página foi traduzida pela API Cloud Translation.

Veja as métricas DCGM da inferência do Vertex AI

Esta página aborda como explorar as métricas do NVIDIA Data Center GPU Manager (DCGM) associadas aos seus pontos finais de inferência da Vertex AI.

O que é o DCGM

O NVIDIA Data Center GPU Manager (DCGM) é um conjunto de ferramentas da NVIDIA que lhe permite gerir e monitorizar GPUs NVIDIA. A inferência da Vertex AI exporta automaticamente as métricas do DCGM da Vertex AI para o Cloud Monitoring se os seus pontos finais usarem GPUs suportadas. Essas métricas oferecem uma vista abrangente da utilização, do desempenho e do estado da GPU.

Pré-requisitos

Antes de começar, certifique-se de que o seu projeto tem o Cloud Monitoring ativado. Consulte o artigo Ative a API Monitoring para mais informações.

Use métricas do DCGM

Para ver as métricas do DCGM no Explorador de métricas, faça o seguinte:

Aceda à página Explorador de métricas na Google Cloud consola.

Aceda ao Metrics Explorer
Em Selecionar uma métrica, selecione Alvo do Prometheus.
Em Categorias de métricas ativas, selecione Vertex.
Em Métricas ativas, selecione a métrica pretendida.
Clique em Aplicar.

Também pode consultar métricas através do Grafana, ou da API ou IU do Prometheus.

Quota

As métricas do DCGM consomem a quota de pedidos de carregamento de séries cronológicas por minuto da API Cloud Monitoring. Antes de ativar os pacotes de métricas, verifique a sua utilização máxima recente dessa quota. Se já estiver a aproximar-se desse limite de quota, pode pedir um aumento do limite de quota.

Métricas do DCGM da Vertex AI

Os nomes das métricas do Cloud Monitoring nesta tabela têm de ter o prefixo prometheus.googleapis.com/. Esse prefixo foi omitido das entradas na tabela.

Juntamente com as etiquetas no recurso monitorizado prometheus_target, todas as métricas DCGM recolhidas no Vertex AI têm as seguintes etiquetas anexadas:

Etiquetas de GPU:

gpu_model: o modelo do dispositivo GPU, como NVIDIA L4.
gpu_uuid: o UUID do dispositivo GPU.
gpu_i_id: o ID da instância da GPU multi-instância (MIG) da NVIDIA.

Etiquetas do Vertex AI:

deployed_model_id: o ID de um modelo implementado que publica pedidos de inferência.
model_display_name: o nome a apresentar de um modelo implementado.
replica_id: o ID exclusivo correspondente à réplica do modelo implementado (nome do pod).
endpoint_id: o ID de um ponto final do modelo.
endpoint_display_name: o nome a apresentar de um ponto final do modelo.
product: o nome da funcionalidade no Vertex AI. Esta opção está sempre Online Inference.

Nome da métrica PromQL Nome da métrica do Cloud Monitoring
Kind, Type, Unit Recursos monitorizados	Descrição
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Memória intermédia de fotogramas livre em MB.
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Buffer de frames total da GPU em MB.
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Memória intermédia de fotogramas usada em MB.
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Leituras de temperatura atuais do dispositivo (em °C).
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Utilização da GPU (em %).
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Utilização da memória (em %).
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Temperatura da memória do dispositivo (em °C).
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Utilização de energia do dispositivo (em Watts).
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Frequência do relógio SM (em MHz).
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target	Consumo energético total da GPU em mJ desde que o controlador foi recarregado pela última vez.
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que a interface de memória do dispositivo está ativa a enviar ou receber dados.
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção do tempo em que o motor gráfico está ativo.
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A taxa de dados de leitura (rx) NvLink ativos em bytes, incluindo o cabeçalho e o payload.
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A taxa de dados de tx (transmissão) NvLink ativos em bytes, incluindo o cabeçalho e o payload.
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A taxa de dados de leitura (rx) de PCIe ativos em bytes, incluindo o cabeçalho e a carga útil.
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A taxa de dados de transmissão (tx) PCIe ativos em bytes, incluindo o cabeçalho e a carga útil.
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que o pipeline fp16 está ativo.
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A relação de ciclos em que o pipeline fp32 está ativo.
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que o pipeline fp64 está ativo.
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que qualquer tensor pipe está ativo.
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que um SM tem, pelo menos, 1 warp atribuído.

GPUs suportadas

Todas as GPUs NVIDIA são suportadas, exceto as seguintes, devido a restrições de recursos:

O que se segue?

Saiba mais sobre o Explorador de métricas.

Veja as métricas DCGM da inferência do Vertex AI Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.