Questa pagina illustra come esplorare le metriche di NVIDIA Data Center GPU Manager (DCGM) associate ai tuoi endpoint Vertex AI Inference.
Che cos'è DCGM
NVIDIA Data Center GPU Manager (DCGM) è un insieme di strumenti di NVIDIA che consentono di gestire e monitorare le GPU NVIDIA. Vertex AI Inference esporta automaticamente le metriche DCGM di Vertex AI in Cloud Monitoring se i tuoi endpoint utilizzano GPU supportate. Queste metriche forniscono una visione completa dell'utilizzo, delle prestazioni e dell'integrità della GPU.
Prerequisiti
Prima di iniziare, assicurati che Cloud Monitoring sia attivato per il tuo progetto. Per ulteriori informazioni, consulta la sezione Attivare l'API Monitoring.
Utilizzare le metriche DCGM
Per visualizzare le metriche DCGM in Metrics Explorer:
Vai alla pagina Esplora metriche nella console Google Cloud .
Nella sezione Seleziona una metrica, seleziona Target Prometheus.
In Categorie di metriche attive, seleziona Vertex.
In Metriche attive, seleziona la metrica che preferisci.
Fai clic su Applica.
Puoi anche eseguire query sulle metriche utilizzando Grafana, o l'API o la UI di Prometheus.
Quota
Le metriche DCGM utilizzano la quota Richieste di importazione di serie temporali al minuto dell'API Cloud Monitoring. Prima di attivare i pacchetti di metriche, controlla il picco di utilizzo recente di questa quota. Se stai già per raggiungere il limite di quota, puoi richiedere un aumento del limite di quota.
Metriche DCGM di Vertex AI
I nomi delle metriche di Cloud Monitoring in questa tabella devono avere il prefisso
prometheus.googleapis.com/
. Questo prefisso è stato omesso dalle voci della tabella.
Oltre alle etichette sulla risorsa monitorata prometheus_target
, tutte le metriche DCGM raccolte su Vertex AI hanno le seguenti etichette associate:
Etichette GPU:
gpu_model
: il modello del dispositivo GPU, ad esempioNVIDIA L4
.gpu_uuid
: l'UUID del dispositivo GPU.gpu_i_id
: l'ID istanza NVIDIA Multi-Instance GPU (MIG).
Etichette Vertex AI:
-
deployed_model_id
: l'ID di un modello di cui è stato eseguito il deployment e che gestisce le richieste di inferenza. model_display_name
: il nome visualizzato di un modello di cui è stato eseguito il deployment.-
replica_id
: l'ID univoco corrispondente alla replica del modello di cui è stato eseguito il deployment (nome del pod). endpoint_id
: l'ID di un endpoint del modello.endpoint_display_name
: il nome visualizzato di un endpoint del modello.-
product
: il nome della funzionalità in Vertex AI. Questo valore è sempreOnline Inference
.
Nome metrica PromQL Nome metrica Cloud Monitoring |
|
---|---|
Tipo, unità
Risorse monitorate | Descrizione |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Buffer di frame libero in MB. |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Framebuffer totale della GPU in MB. |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Frame buffer utilizzato in MB. |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Letture della temperatura attuale per il dispositivo (in °C). |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Utilizzo GPU (in %). |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Utilizzo della memoria (in %). |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Temperatura della memoria del dispositivo (in °C). |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Consumo energetico del dispositivo (in watt). |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Frequenza di clock SM (in MHz). |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE , DOUBLE , 1
prometheus_target
|
Consumo energetico totale della GPU in mJ dall'ultimo ricaricamento del driver. |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il rapporto tra i cicli in cui l'interfaccia di memoria del dispositivo è attiva per l'invio o la ricezione di dati. |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il rapporto tra il tempo in cui il motore della grafica è attivo. |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il tasso di dati rx (lettura) NvLink attivi in byte, inclusi intestazione e payload. |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il tasso di trasmissione (tx) dei dati NvLink attivi in byte, inclusi intestazione e payload. |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il tasso di dati PCIe rx (lettura) attivi in byte, inclusi sia l'intestazione che il payload. |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il tasso di dati PCIe tx (trasmissione) attivi in byte, inclusi sia l'intestazione che il payload. |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il rapporto tra i cicli in cui la pipeline fp16 è attiva. |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il rapporto tra i cicli in cui la pipeline FP32 è attiva. |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il rapporto tra i cicli in cui la pipeline fp64 è attiva. |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il rapporto tra i cicli in cui è attiva una pipeline tensoriale. |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Il rapporto tra i cicli a cui è assegnato almeno un warp. |
GPU supportate
Sono supportate tutte le GPU NVIDIA, ad eccezione delle seguenti, a causa di vincoli delle risorse:
Passaggi successivi
- Scopri di più su Esplora metriche.