DCGM-Messwerte für Vertex AI-Inferenz ansehen

Auf dieser Seite wird beschrieben, wie Sie NVIDIA Data Center GPU Manager (DCGM)-Messwerte für Ihre Vertex AI-Inferenzendpunkte ansehen.

Was ist DCGM?

NVIDIA Data Center GPU Manager (DCGM) ist eine Reihe von Tools von NVIDIA, mit denen Sie NVIDIA-GPUs verwalten und überwachen können. Vertex AI Inference exportiert automatisch Vertex AI DCGM-Messwerte in Cloud Monitoring, wenn Ihre Endpunkte unterstützte GPUs verwenden. Diese Messwerte bieten einen umfassenden Überblick über GPU-Auslastung, ‑Leistung und ‑Zustand.

Vorbereitung

Prüfen Sie zuerst, ob Cloud Monitoring für Ihr Projekt aktiviert ist. Weitere Informationen finden Sie unter Monitoring API aktivieren.

DCGM-Messwerte verwenden

So rufen Sie DCGM-Messwerte im Metrics Explorer auf:

  1. Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.

    Zum Metrics Explorer

  2. Wählen Sie unter Messwert auswählen die Option Prometheus-Ziel aus.

  3. Wählen Sie unter Aktive Messwertkategorien die Option Vertex aus.

  4. Wählen Sie unter Aktive Messwerte den gewünschten Messwert aus.

  5. Klicken Sie auf Übernehmen.

Sie können Messwerte auch mit Grafana oder der Prometheus API oder UI abfragen.

Kontingent

DCGM-Messwerte verbrauchen Kontingent für Zeitachsenaufnahmeanfragen pro Minute der Cloud Monitoring API. Bevor Sie die Messwertpakete aktivieren, prüfen Sie Ihre letzte Spitzennutzung dieses Kontingents. Wenn Sie dieses Kontingentlimit bereits fast erreicht haben, können Sie ein höheres Kontingent anfordern.

DCGM-Messwerte für Vertex AI

Die Cloud Monitoring-Messwertnamen in dieser Tabelle müssen das Präfix prometheus.googleapis.com/ haben. Dieses Präfix wurde in den Einträgen der Tabelle weggelassen.

Zusammen mit den Labels für die überwachte prometheus_target-Ressource haben alle erfassten DCGM-Messwerte in Vertex AI die folgenden Labels:

GPU-Labels:

  • gpu_model: Das GPU-Gerätemodell, z. B. NVIDIA L4.
  • gpu_uuid: Die UUID des GPU-Geräts.
  • gpu_i_id: Die Instanz-ID der NVIDIA-GPU mit mehreren Instanzen (Multi-Instance GPU, MIG).

Vertex AI-Labels:

  • deployed_model_id: Die ID eines bereitgestellten Modells, das Inferenzanfragen verarbeitet.
  • model_display_name: Der Anzeigename eines bereitgestellten Modells.
  • replica_id: Die eindeutige ID des bereitgestellten Modellreplikats (Pod-Name).
  • endpoint_id: die ID eines Modellendpunkts.
  • endpoint_display_name: Der Anzeigename eines Modellendpunkts.
  • product: Der Name des Features in Vertex AI. Dies ist immer Online Inference.
PromQL-Messwertname
Cloud Monitoring-Messwertname
Art, Typ, Einheit
Überwachte Ressourcen
Beschreibung
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target Freier Frame-Puffer in MB.
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target Gesamter Framebuffer der GPU in MB.
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target Genutzter Framebuffer in MB.
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target Aktuelle Temperaturmessungen für das Gerät (in °C).
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target GPU-Auslastung in %.
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target Arbeitsspeicherauslastung (in %).
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target Arbeitsspeichertemperatur des Geräts (in °C).
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target Stromverbrauch des Geräts (in Watt).
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target SM-Taktfrequenz (in MHz).
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target Gesamtenergieverbrauch der GPU in mJ seit dem letzten Neuladen des Treibers.
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target Das Verhältnis der Zyklen, in denen die Gerätespeicherschnittstelle aktiv Daten sendet oder empfängt.
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target Das Verhältnis der Zeit, in der die Grafik-Engine aktiv ist.
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Die Rate der aktiven NvLink-Empfangsdaten (Lesen) in Byte, einschließlich Header und Nutzlast.
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Die Rate der aktiven NvLink-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast.
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Die Rate der aktiven PCIe-Empfangsdaten (Lesevorgänge) in Byte, einschließlich Header und Nutzlast.
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Die Rate der aktiven PCIe-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast.
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target Das Verhältnis der Zyklen, in denen die fp16-Pipe aktiv ist.
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target Das Verhältnis der Zyklen, in denen die fp32-Pipe aktiv ist.
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target Das Verhältnis der Zyklen, in denen die fp64-Pipe aktiv ist.
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target Das Verhältnis der Zyklen, in denen eine beliebige Tensor Pipe aktiv ist.
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target Das Verhältnis der Zyklen, in denen einer SM mindestens 1 Warp zugewiesen ist.

Unterstützte GPUs

Alle NVIDIA-GPUs werden unterstützt, mit Ausnahme der folgenden, da Ressourcenbeschränkungen bestehen:

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA T4

Nächste Schritte