Auf dieser Seite wird beschrieben, wie Sie NVIDIA Data Center GPU Manager (DCGM)-Messwerte für Ihre Vertex AI-Inferenzendpunkte ansehen.
Was ist DCGM?
NVIDIA Data Center GPU Manager (DCGM) ist eine Reihe von Tools von NVIDIA, mit denen Sie NVIDIA-GPUs verwalten und überwachen können. Vertex AI Inference exportiert automatisch Vertex AI DCGM-Messwerte in Cloud Monitoring, wenn Ihre Endpunkte unterstützte GPUs verwenden. Diese Messwerte bieten einen umfassenden Überblick über GPU-Auslastung, ‑Leistung und ‑Zustand.
Vorbereitung
Prüfen Sie zuerst, ob Cloud Monitoring für Ihr Projekt aktiviert ist. Weitere Informationen finden Sie unter Monitoring API aktivieren.
DCGM-Messwerte verwenden
So rufen Sie DCGM-Messwerte im Metrics Explorer auf:
Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.
Wählen Sie unter Messwert auswählen die Option Prometheus-Ziel aus.
Wählen Sie unter Aktive Messwertkategorien die Option Vertex aus.
Wählen Sie unter Aktive Messwerte den gewünschten Messwert aus.
Klicken Sie auf Übernehmen.
Sie können Messwerte auch mit Grafana oder der Prometheus API oder UI abfragen.
Kontingent
DCGM-Messwerte verbrauchen Kontingent für Zeitachsenaufnahmeanfragen pro Minute der Cloud Monitoring API. Bevor Sie die Messwertpakete aktivieren, prüfen Sie Ihre letzte Spitzennutzung dieses Kontingents. Wenn Sie dieses Kontingentlimit bereits fast erreicht haben, können Sie ein höheres Kontingent anfordern.
DCGM-Messwerte für Vertex AI
Die Cloud Monitoring-Messwertnamen in dieser Tabelle müssen das Präfix prometheus.googleapis.com/
haben. Dieses Präfix wurde in den Einträgen der Tabelle weggelassen.
Zusammen mit den Labels für die überwachte prometheus_target
-Ressource haben alle erfassten DCGM-Messwerte in Vertex AI die folgenden Labels:
GPU-Labels:
gpu_model
: Das GPU-Gerätemodell, z. B.NVIDIA L4
.gpu_uuid
: Die UUID des GPU-Geräts.gpu_i_id
: Die Instanz-ID der NVIDIA-GPU mit mehreren Instanzen (Multi-Instance GPU, MIG).
Vertex AI-Labels:
-
deployed_model_id
: Die ID eines bereitgestellten Modells, das Inferenzanfragen verarbeitet. model_display_name
: Der Anzeigename eines bereitgestellten Modells.-
replica_id
: Die eindeutige ID des bereitgestellten Modellreplikats (Pod-Name). endpoint_id
: die ID eines Modellendpunkts.endpoint_display_name
: Der Anzeigename eines Modellendpunkts.-
product
: Der Name des Features in Vertex AI. Dies ist immerOnline Inference
.
PromQL-Messwertname Cloud Monitoring-Messwertname |
|
---|---|
Art, Typ, Einheit
Überwachte Ressourcen | Beschreibung |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Freier Frame-Puffer in MB. |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Gesamter Framebuffer der GPU in MB. |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Genutzter Framebuffer in MB. |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Aktuelle Temperaturmessungen für das Gerät (in °C). |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
GPU-Auslastung in %. |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Arbeitsspeicherauslastung (in %). |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Arbeitsspeichertemperatur des Geräts (in °C). |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Stromverbrauch des Geräts (in Watt). |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
SM-Taktfrequenz (in MHz). |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE , DOUBLE , 1
prometheus_target
|
Gesamtenergieverbrauch der GPU in mJ seit dem letzten Neuladen des Treibers. |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen die Gerätespeicherschnittstelle aktiv Daten sendet oder empfängt. |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Das Verhältnis der Zeit, in der die Grafik-Engine aktiv ist. |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Die Rate der aktiven NvLink-Empfangsdaten (Lesen) in Byte, einschließlich Header und Nutzlast. |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Die Rate der aktiven NvLink-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast. |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Die Rate der aktiven PCIe-Empfangsdaten (Lesevorgänge) in Byte, einschließlich Header und Nutzlast. |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Die Rate der aktiven PCIe-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast. |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen die fp16-Pipe aktiv ist. |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen die fp32-Pipe aktiv ist. |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen die fp64-Pipe aktiv ist. |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen eine beliebige Tensor Pipe aktiv ist. |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen einer SM mindestens 1 Warp zugewiesen ist. |
Unterstützte GPUs
Alle NVIDIA-GPUs werden unterstützt, mit Ausnahme der folgenden, da Ressourcenbeschränkungen bestehen: