DCGM-Messwerte erfassen und aufrufen


Sie können GPU-Auslastung, Leistung und Zustand überwachen, indem Sie KGE zum Senden von NVIDIA Data Center GPU Manager-Messwerte (DCGM) zu Cloud Monitoring konfigurieren.

Wenn Sie DCGM-Messwerte aktivieren, installiert GKE das DCGM-Exporter-Tool, installiert von Google verwaltete GPU-Treiber und stellt eine ClusterPodMonitoring-Ressource bereit, um Messwerte an Google Cloud Managed Service for Prometheus zu senden.

Sie können auch selbstverwaltetes DCGMkonfigurieren, wenn Sie die DCGM-Messwerte anpassen möchten oder wenn Sie einen Cluster haben, der die Anforderungen für verwaltete DCGM-Messwerte nicht erfüllt.

Was ist DCGM?

Der NVIDIA Data Center GPU Manager (DCGM) ist eine Reihe von Tools von NVIDIA, mit denen Sie NVIDIA-GPUs verwalten und überwachen können. DCGM stellt verschiedene Strukturen und Zähler zur Beobachtung bereit, die als fields bezeichnet werden. Jedes Feld hat eine symbolische Kennung und eine Feldnummer. Eine vollständige Liste finden Sie unter Liste der Feld-IDs für NVIDIA DCGM.

Wenn Sie DCGM-Messwerte in GKE aktivieren, sind die unterstützten Messwerte automatisch in Cloud Monitoring verfügbar. Diese Messwerte bieten eine umfassende Übersicht über die GPU-Auslastung, -Leistung und -Zustand.

  • Die Messwerte zur GPU-Auslastung geben Aufschluss darüber, wie ausgelastet die überwachte GPU ist und ob sie effektiv für die Verarbeitung von Aufgaben genutzt wird. Dazu gehören Messwerte für die Kernverarbeitung, den Arbeitsspeicher, die E/A-Leistung und die Stromnutzung.
  • GPU-Leistungsmesswerte geben an, wie effektiv und effizient eine GPU eine Rechenaufgabe ausführen kann. Dazu gehören Messwerte für Taktgeschwindigkeit und Temperatur.
  • GPU-E/A-Messwerte wie NVlink und PCIe messen die Datenübertragungsbandbreite.

Hinweise

Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:

  • Aktivieren Sie die Google Kubernetes Engine API.
  • Google Kubernetes Engine API aktivieren
  • Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit gcloud components update ab.

Anforderungen an Messwerte für NVIDIA Data Center GPU Manager (DCGM)

Zum Erfassen von NVIDIA Data Center GPU Manager-Messwerten (DCGM) muss Ihr GKE-Cluster die folgenden Anforderungen erfüllen:

Beschränkungen

  • Wenn Sie ein selbst bereitgestelltes Messwertpaket des NVIDIA Data Center GPU Manager (DCGM) ausführen, dürfen Sie diese nicht mehr erfassen, bevor Sie die Messwerte des verwalteten NVIDIA Data Center GPU Manager (DCGM) aktivieren. Andernfalls kann es zu doppelten oder falschen Messwerten kommen.

  • Verwaltete DCGM-Messwerte, einschließlich der zugrunde liegenden Manifeste und Container-Images, sind nur für GKE-Cluster vorgesehen. Verwaltete DCGM-Messwerte dürfen nicht eigenständig verwendet oder außerhalb von GKE ausgeführt werden.

Erfassung von DCGM-Messwerten konfigurieren

Sie können GKE so konfigurieren, dass DCGM-Messwerte für einen vorhandenen Cluster erfasst werden. Verwenden Sie dazu die Google Cloud -Console, die gcloud CLI oder Terraform.

Console

  1. Erstellen Sie einen GPU-Knotenpool.

    Sie müssen entweder Standard oder Letzte für die Installation des GPU-Treibers verwenden.

  2. Rufen Sie in der Google Cloud -Konsole die Seite Google Kubernetes Engine auf.

    Zur Seite "Google Kubernetes Engine"

  3. Klicken Sie auf den Namen Ihres Clusters.

  4. Klicken Sie neben Cloud Monitoring auf .

  5. Wählen Sie SYSTEM und DCGM aus.

  6. Klicken Sie auf „Speichern“.

gcloud

  1. Erstellen Sie einen GPU-Knotenpool.

    Sie müssen entweder default oder latest für --gpu-driver-version verwenden.

  2. Cluster aktualisieren:

    gcloud container clusters update CLUSTER_NAME \
        --location=COMPUTE_LOCATION \
        --enable-managed-prometheus \
        --monitoring=SYSTEM,DCGM
    

    Ersetzen Sie Folgendes:

Terraform

Informationen zum Konfigurieren der Erfassung von Messwerten mit Terraform finden Sie im Block monitoring_config in der Terraform-Registry für google_container_cluster. Allgemeine Informationen zur Verwendung von Google Cloud mit Terraform finden Sie unter Terraform mit Google Cloud.

DCGM-Messwerte verwenden

Sie können DCGM-Messwerte über die Dashboards in derGoogle Cloud -Konsole oder direkt auf den Seiten „Clusterübersicht“ und „Clusterdetails“ aufrufen. Weitere Informationen finden Sie unter Beobachtbarkeitsmesswerte aufrufen.

Messwerte lassen sich mit dem Grafana DCGM-Messwerte-Dashboard anzeigen. Weitere Informationen finden Sie unter Abfragen mit Grafana. Wenn Fehler auftreten, lesen Sie den Hilfeartikel API-Kompatibilität.

Preise

DCGM-Messwerte nutzen Google Cloud Managed Service for Prometheus zum Laden von Messwerten in Cloud Monitoring. In Cloud Monitoring fallen Gebühren für die Aufnahme dieser Messwerte basierend auf der Anzahl der aufgenommenen Stichproben an. Für registrierte Cluster, die zu einem Projekt gehören, bei denen GKE Enterprise-Edition aktiviert ist, fallen keine Kosten an.

Weitere Informationen finden Sie unter Cloud Monitoring-Preise.

Kontingent

DCGM-Messwerte verbrauchen Kontingent für Zeitachsenaufnahmeanfragen pro Minute der Cloud Monitoring API. Bevor Sie die Messwertpakete aktivieren, prüfen Sie Ihre letzte Spitzennutzung dieses Kontingents. Wenn sich viele Cluster im selben Projekt befinden oder sich dem Limit dieses Kontingents nähern, können Sie eine Erhöhung des Kontingentlimits beantragen, bevor Sie ein Beobachtbarkeitspaket aktivieren.

DCGM-Messwerte

Die Cloud Monitoring-Messwertnamen in dieser Tabelle müssen das Präfix prometheus.googleapis.com/ haben. Dieses Präfix wurde in den Einträgen der Tabelle weggelassen.

Zusätzlich zu den Labels für die überwachte prometheus_target-Ressource sind allen erfassten DCGM-Messwerten in GKE die folgenden Labels zugewiesen:

GPU-Labels:

  • UUID: die UUID des GPU-Geräts
  • device: Der Name des GPU-Geräts.
  • gpu: Die Indexnummer als Ganzzahl des GPU-Geräts auf dem Knoten. Wenn beispielsweise 8 GPUs angeschlossen sind, kann dieser Wert zwischen 0 und 7 liegen.
  • modelName: Der Name des GPU-Gerätemodells, z. B. NVIDIA L4.

Kubernetes-Labels:

  • container: Der Name des Kubernetes-Containers, der das GPU-Gerät verwendet.
  • namespace: Der Kubernetes-Namespace des Pods und des Containers, der das GPU-Gerät verwendet.
  • pod: der Kubernetes-Pod, der das GPU-Gerät verwendet.
PromQL-Messwertname
Cloud Monitoring-Messwertname
Art, Typ, Einheit
Überwachte Ressourcen
Erforderliche GKE-Version
Beschreibung
DCGM_FI_DEV_FB_FREE
DCGM_FI_DEV_FB_FREE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Freier Frame-Puffer in MB.
DCGM_FI_DEV_FB_TOTAL
DCGM_FI_DEV_FB_TOTAL/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Gesamter Framebuffer der GPU in MB.
DCGM_FI_DEV_FB_USED
DCGM_FI_DEV_FB_USED/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Verwendeter Framebuffer in MB.
DCGM_FI_DEV_GPU_TEMP
DCGM_FI_DEV_GPU_TEMP/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Aktuelle Temperaturmessungen für das Gerät (in °C).
DCGM_FI_DEV_GPU_UTIL
DCGM_FI_DEV_GPU_UTIL/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
GPU-Auslastung (in %)
DCGM_FI_DEV_MEM_COPY_UTIL
DCGM_FI_DEV_MEM_COPY_UTIL/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Arbeitsspeicherauslastung (in %)
DCGM_FI_DEV_MEMORY_TEMP
DCGM_FI_DEV_MEMORY_TEMP/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Arbeitsspeichertemperatur des Geräts (in °C).
DCGM_FI_DEV_POWER_USAGE
DCGM_FI_DEV_POWER_USAGE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Stromverbrauch des Geräts (in Watt).
DCGM_FI_DEV_SM_CLOCK
DCGM_FI_DEV_SM_CLOCK/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
SM-Taktfrequenz (in MHz).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION/counter

CUMULATIVEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Gesamtenergieverbrauch der GPU in mJ seit dem letzten Neuladen des Treibers.
DCGM_FI_PROF_DRAM_ACTIVE
DCGM_FI_PROF_DRAM_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Das Verhältnis der Zyklen, in denen die Gerätespeicherschnittstelle aktiv ist und Daten sendet oder empfängt.
DCGM_FI_PROF_GR_ENGINE_ACTIVE
DCGM_FI_PROF_GR_ENGINE_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Der Anteil der Zeit, in der die Grafik-Engine aktiv ist.
DCGM_FI_PROF_NVLINK_RX_BYTES
DCGM_FI_PROF_NVLINK_RX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Die Rate der aktiven NvLink-Rx-Daten (gelesen) in Byte, einschließlich Header und Nutzlast.
DCGM_FI_PROF_NVLINK_TX_BYTES
DCGM_FI_PROF_NVLINK_TX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Die Rate der aktiven NvLink-Übertragungsdaten (Tx) in Byte, einschließlich Header und Nutzlast.
DCGM_FI_PROF_PCIE_RX_BYTES
DCGM_FI_PROF_PCIE_RX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Die Rate der aktiven PCIe-Rx-Daten (Lesedaten) in Byte, einschließlich Header und Nutzlast.
DCGM_FI_PROF_PCIE_TX_BYTES
DCGM_FI_PROF_PCIE_TX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Die Rate der aktiven PCIe-Übertragungsdaten in Byte, einschließlich Header und Nutzlast.
DCGM_FI_PROF_PIPE_FP16_ACTIVE
DCGM_FI_PROF_PIPE_FP16_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Das Verhältnis der Zyklen, in denen die fp16-Pipe aktiv ist.
DCGM_FI_PROF_PIPE_FP32_ACTIVE
DCGM_FI_PROF_PIPE_FP32_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Das Verhältnis der Zyklen, in denen die fp32-Pipe aktiv ist.
DCGM_FI_PROF_PIPE_FP64_ACTIVE
DCGM_FI_PROF_PIPE_FP64_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Das Verhältnis der Zyklen, in denen die fp64-Pipe aktiv ist.
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Das Verhältnis der Zyklen, in denen eine beliebige Tensor Pipe aktiv ist.
DCGM_FI_PROF_SM_ACTIVE
DCGM_FI_PROF_SM_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
Das Verhältnis der Zyklen, in denen einer SM mindestens 1 Warp zugewiesen ist.

Damit Sie besser nachvollziehen können, wie diese Messwerte verwendet werden können, haben wir sie in die folgenden Kategorien unterteilt:

Rechen- oder Kernauslastung

Anhand dieser Messwerte können Sie Geräte mit geringer Auslastung erkennen und entweder die Berechnung oder die GPU-Zuweisung anpassen, um die Auslastung zu optimieren. Eine geringe Auslastung bedeutet, dass Sie möglicherweise mehr GPU-Kapazität bezahlen, als Sie benötigen. Mit diesen Messwerten können Sie Kosten sparen, indem Sie die Berechnungen auf weniger Geräten konsolidieren.

DCGM_FI_DEV_GPU_UTIL

Dieser Messwert gibt den Anteil der Zeit an, in der die GPU aktiv war.

Erwartete Nutzung:Hier erhalten Sie einen Überblick über die durchschnittliche GPU-Auslastung. Dieser Messwert ähnelt DCGM_FI_PROF_GR_ENGINE_ACTIVE, der ein genauerer Messwert für die GPU-Auslastung sein könnte.

DCGM_FI_PROF_GR_ENGINE_ACTIVE

Dieser Messwert gibt an, wie ausgelastet die Grafik-Engine in jedem Stichprobenintervall war. Der Wert wird aus der durchschnittlichen Anzahl der aktiven Zyklen im Vergleich zu den maximal möglichen verfügbaren Zyklen im gesamten Stichprobenintervall abgeleitet. Wenn beispielsweise über einen Zeitraum von einer Sekunde 1.000 Zyklen verfügbar waren und durchschnittlich 324 Zyklen aktiv waren (Arbeiten ausgeführt haben), würde der resultierende Messwert 0,324 betragen. Das entspricht ungefähr einer Auslastung von (0,324 × 100) 32,4 %.

Erwartete Nutzung:Hier erhalten Sie einen Überblick über die durchschnittliche GPU-Auslastung. Dauerhaft hohe Auslastungswerte deuten darauf hin, dass die GPU ein Engpass sein könnte, der Probleme mit der Systemleistung verursacht. Dauerhaft niedrige Auslastungswerte weisen darauf hin, dass die Anwendung die verfügbare Rechenleistung nicht vollständig nutzt.

DCGM_FI_PROF_PIPE_FP16_ACTIVE, DCGM_FI_PROF_PIPE_FP32_ACTIVE, DCGM_FI_PROF_PIPE_FP64_ACTIVE, DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Diese Messwerte geben das Verhältnis der Zyklen an, in denen eine bestimmte GPU-Pipeline aktiv ist, zu den kontinuierlich verstrichenen Spitzenzyklen.

Erwartete Nutzung:Gibt an, wie effektiv die verschiedenen Rechenpipelines in der GPU genutzt werden.

DCGM_FI_PROF_SM_ACTIVE

Dieser Messwert gibt den Anteil der Zeit an, in der mindestens ein Warp auf einem SM(Streaming-Multiprozessor) aktiv war, gemittelt über alle SMs. Wenn die GPU beispielsweise 80 SMs hat und während des Messzeitraums 16 SMs einen Warp ausführen, ergibt sich der Wert sm_active = (16/80) 0,20.Das bedeutet, dass 20% der verfügbaren SMs einen Warp ausführen.

Erwartete Nutzung:Ein Maß dafür, wie die GPU-Parallelität genutzt wird.

Speicherauslastung

Diese Messwerte werden hauptsächlich verwendet, um festzustellen, ob GPU-Geräte nicht genügend Speicher für die Anwendungen haben. Für diese Anwendungen kann es von Vorteil sein, mehr GPU-Kapazität zuzuweisen.

DCGM_FI_DEV_FB_FREE, DCGM_FI_DEV_FB_USED, DCGM_FI_DEV_FB_TOTAL

Diese Messwerte beziehen sich auf den Framebuffer-Arbeitsspeicher, also den Arbeitsspeicher der GPU. Die Messwerte geben den freien und den verwendeten Arbeitsspeicher an, die zusammen die Gesamtmenge ergeben. Und auch den insgesamt verfügbaren Arbeitsspeicher.

Erwartete Nutzung:Hiermit werden die Muster der GPU-Arbeitsspeichernutzung ermittelt. So können Sie die tatsächliche GPU-Arbeitsspeichernutzung mit der erwarteten Nutzung in Beziehung setzen, um die Speichereffizienz der Anwendung zu bestimmen.

DCGM_FI_DEV_MEM_COPY_UTIL

Dieser Messwert gibt den Anteil der Zeit während des letzten Stichprobenzeitraums an, in der in den globalen Arbeitsspeicher (von Geräten) geschrieben oder aus diesem gelesen wurde.

Erwartete Nutzung:Hiermit werden die Muster der Datenübertragung zum und vom GPU-Arbeitsspeicher ermittelt. Hohe Werte dieses Messwerts in Kombination mit niedrigen Werten der Messwerte für die Rechennutzung können darauf hinweisen, dass die Arbeitsspeicherübertragung der Engpass bei den laufenden Anwendungen ist.

DCGM_FI_PROF_DRAM_ACTIVE

Dieser Messwert gibt das Verhältnis der Zyklen an, in denen die GPU-Speicherschnittstelle Daten sendet oder empfängt. Dazu gehören Laden und Speichern von Threads, die auf SMs ausgeführt werden, sowie Speicherkopien von und zum GPU-Speicher. Höhere Werte weisen auf einen höheren Arbeitsspeicherverkehr hin.

Erwartete Verwendung: Dieser Messwert ähnelt dem Messwert DCGM_FI_DEV_MEM_COPY_UTIL und könnte genauer sein.

E/A-Auslastung

Die folgenden Messwerte geben Aufschluss über die Nutzung der Datenübertragung zwischen der GPU und dem Host oder zwischen mehreren GPU-Geräten. Mit diesen Messwerten können Sie beispielsweise erkennen, ob eine Anwendung den Interconnect überlastet. Aufgrund der inhärenten Burst-Natur dieser Übertragung kann es sich lohnen, Daten mit höherer Auflösung (z.B. eine Verteilung) zu untersuchen, um ein detaillierteres Bild davon zu erhalten, wie sich die Verbindung verhalten hat.

DCGM_FI_PROF_NVLINK_RX_BYTES, DCGM_FI_PROF_NVLINK_TX_BYTES

Diese Messwerte stellen den NVLink-Übertragungs- (tx) und -Empfangsdurchsatz (rx) in Byte dar.

Erwartete Verwendung:Verfolgt die Last auf den NVLink-Connectors (zwischen GPU-Chips). Wenn der Wert dieser Messwerte der Gesamtbandbreite der verfügbaren NVLink-Konnektivität nahekommt und die Messwerte für die Rechennutzung niedrig sind, kann dies darauf hindeuten, dass der NVLink ein Engpass für die laufenden Anwendungen ist.

DCGM_FI_PROF_PCIE_RX_BYTES, DCGM_FI_PROF_PCIE_TX_BYTES

Diese Messwerte geben den PCIe-Übertragungs- (tx) und -Empfangsdurchsatz (rx) in Byte an. Dabei steht „tx“ für die GPU, die Daten überträgt, und „rx“ für die GPU, die Daten empfängt.

Erwartete Verwendung:Verfolgt die Last auf dem PCIe-Bus (zwischen CPU und GPU). Wenn die Werte dieser Messwerte annähernd der Gesamtbandbreite des PCIe-Busses entsprechen und die Messwerte für die Rechenleistung niedrig sind, kann dies darauf hindeuten, dass der PCIe-Bus ein Engpass für die laufenden Anwendungen ist.

Stromverbrauch

Die folgenden Messwerte geben Aufschluss über die GPU-Leistungsnutzung, die manchmal entscheidend für die Leistung und Effizienz der Arbeitslast ist.

DCGM_FI_DEV_GPU_TEMP

Dieser Messwert gibt die durchschnittliche Temperatur aller GPU-Kerne an.

Erwartete Nutzung:Hier wird erfasst, wann die GPU kurz vor einer Überhitzung steht, hauptsächlich zur Korrelation mit dem Taktdrosseln. Mit diesem Messwert können Sie auch GPUs identifizieren, die bei einer geringeren Auslastung in erweiterten Anwendungen zu Überhitzung neigen.

DCGM_FI_DEV_POWER_USAGE

Dieser Messwert gibt den GPU-Stromverbrauch in Watt an. Sie können den Stromverbrauch als Messwert für die GPU-Auslastung erfassen. NVIDIA-GPUs passen die Taktfrequenz der Engine an die Arbeitslast an. Mit steigender Taktgeschwindigkeit (und damit Auslastung) steigt auch der Stromverbrauch.

Erwartete Nutzung:Zeigt an, wie viel Strom die GPU für Nutzeranwendungen verbraucht.

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

Dieser Messwert gibt den Gesamtenergieverbrauch der GPU in Millijoule (mJ) nach dem letzten Neuladen des Treibers an. Die auf Grundlage dieses Messwerts berechnete Rate sollte dem Messwert „Stromverbrauch“ entsprechen.

Erwartete Nutzung:Zeigt an, wie viel Strom die GPU für Nutzeranwendungen verbraucht.

GPU-Leistungsmesswerte

Die GPU-Leistung gibt an, wie effektiv und effizient eine GPU eine Rechenaufgabe ausführen kann.

DCGM_FI_DEV_MEMORY_TEMP

Dieser Messwert gibt die durchschnittliche Temperatur des Arbeitsspeicherblocks an.

Erwartete Nutzung:Zeigt die Temperatur des Speicherblocks an und korreliert mit der GPU-Temperatur.

DCGM_FI_DEV_SM_CLOCK

Dieser Messwert gibt die durchschnittliche Taktgeschwindigkeit aller SMs an. Dieser Messwert wird für einen bestimmten Zeitraum berechnet.

Erwartete Verwendung:Mit diesem Messwert können Sie die Taktgeschwindigkeit überwachen, um eine Drosselung zu erkennen und mit der Anwendungsleistung in Beziehung zu setzen.

Nächste Schritte