Visualizza le metriche DCGM di Vertex AI Inference

Questa pagina illustra come esplorare le metriche di NVIDIA Data Center GPU Manager (DCGM) associate ai tuoi endpoint Vertex AI Inference.

Che cos'è DCGM

NVIDIA Data Center GPU Manager (DCGM) è un insieme di strumenti di NVIDIA che consentono di gestire e monitorare le GPU NVIDIA. Vertex AI Inference esporta automaticamente le metriche DCGM di Vertex AI in Cloud Monitoring se i tuoi endpoint utilizzano GPU supportate. Queste metriche forniscono una visione completa dell'utilizzo, delle prestazioni e dell'integrità della GPU.

Prerequisiti

Prima di iniziare, assicurati che Cloud Monitoring sia attivato per il tuo progetto. Per ulteriori informazioni, consulta la sezione Attivare l'API Monitoring.

Utilizzare le metriche DCGM

Per visualizzare le metriche DCGM in Metrics Explorer:

  1. Vai alla pagina Esplora metriche nella console Google Cloud .

    Vai a Esplora metriche

  2. Nella sezione Seleziona una metrica, seleziona Target Prometheus.

  3. In Categorie di metriche attive, seleziona Vertex.

  4. In Metriche attive, seleziona la metrica che preferisci.

  5. Fai clic su Applica.

Puoi anche eseguire query sulle metriche utilizzando Grafana, o l'API o la UI di Prometheus.

Quota

Le metriche DCGM utilizzano la quota Richieste di importazione di serie temporali al minuto dell'API Cloud Monitoring. Prima di attivare i pacchetti di metriche, controlla il picco di utilizzo recente di questa quota. Se stai già per raggiungere il limite di quota, puoi richiedere un aumento del limite di quota.

Metriche DCGM di Vertex AI

I nomi delle metriche di Cloud Monitoring in questa tabella devono avere il prefisso prometheus.googleapis.com/. Questo prefisso è stato omesso dalle voci della tabella.

Oltre alle etichette sulla risorsa monitorata prometheus_target, tutte le metriche DCGM raccolte su Vertex AI hanno le seguenti etichette associate:

Etichette GPU:

  • gpu_model: il modello del dispositivo GPU, ad esempio NVIDIA L4.
  • gpu_uuid: l'UUID del dispositivo GPU.
  • gpu_i_id: l'ID istanza NVIDIA Multi-Instance GPU (MIG).

Etichette Vertex AI:

  • deployed_model_id: l'ID di un modello di cui è stato eseguito il deployment e che gestisce le richieste di inferenza.
  • model_display_name: il nome visualizzato di un modello di cui è stato eseguito il deployment.
  • replica_id: l'ID univoco corrispondente alla replica del modello di cui è stato eseguito il deployment (nome del pod).
  • endpoint_id: l'ID di un endpoint del modello.
  • endpoint_display_name: il nome visualizzato di un endpoint del modello.
  • product: il nome della funzionalità in Vertex AI. Questo valore è sempre Online Inference.
Nome metrica PromQL
Nome metrica Cloud Monitoring
Tipo, unità
Risorse monitorate
Descrizione
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target Buffer di frame libero in MB.
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target Framebuffer totale della GPU in MB.
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target Frame buffer utilizzato in MB.
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target Letture della temperatura attuale per il dispositivo (in °C).
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target Utilizzo GPU (in %).
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target Utilizzo della memoria (in %).
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target Temperatura della memoria del dispositivo (in °C).
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target Consumo energetico del dispositivo (in watt).
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target Frequenza di clock SM (in MHz).
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target Consumo energetico totale della GPU in mJ dall'ultimo ricaricamento del driver.
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target Il rapporto tra i cicli in cui l'interfaccia di memoria del dispositivo è attiva per l'invio o la ricezione di dati.
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target Il rapporto tra il tempo in cui il motore della grafica è attivo.
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Il tasso di dati rx (lettura) NvLink attivi in byte, inclusi intestazione e payload.
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Il tasso di trasmissione (tx) dei dati NvLink attivi in byte, inclusi intestazione e payload.
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Il tasso di dati PCIe rx (lettura) attivi in byte, inclusi sia l'intestazione che il payload.
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Il tasso di dati PCIe tx (trasmissione) attivi in byte, inclusi sia l'intestazione che il payload.
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target Il rapporto tra i cicli in cui la pipeline fp16 è attiva.
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target Il rapporto tra i cicli in cui la pipeline FP32 è attiva.
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target Il rapporto tra i cicli in cui la pipeline fp64 è attiva.
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target Il rapporto tra i cicli in cui è attiva una pipeline tensoriale.
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target Il rapporto tra i cicli a cui è assegnato almeno un warp.

GPU supportate

Sono supportate tutte le GPU NVIDIA, ad eccezione delle seguenti, a causa di vincoli delle risorse:

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA T4

Passaggi successivi