GPU-Leistung auf Linux-VMs überwachen

Linux

Mit dem Ops-Agent, der von Google empfohlenen Lösung für Telemetrieerfassung für Compute Engine, können Sie Messwerte wie GPU-Auslastung und GPU-Arbeitsspeicher auf Ihren VM-Instanzen beobachten. Mit dem Ops-Agent können Sie Ihre GPU-VMs so verwalten:

Visualisieren Sie den Zustand Ihrer NVIDIA-GPU-Flotte mit unseren vorkonfigurierten Dashboards.
Optimieren Sie die Kosten, indem Sie nicht ausgelastete GPUs ermitteln und Arbeitslasten konsolidieren
Planen Sie die Skalierung anhand von Trends, um zu entscheiden, wann die GPU-Kapazität erweitert oder vorhandene GPUs aktualisiert werden sollen.
Verwenden Sie Profilerstellungsmesswerte für NVIDIA Data Center GPU Manager (DCGM), um Engpässe und Leistungsprobleme in Ihren GPUs zu bestimmen.
Richten Sie verwaltete Instanzgruppen (Managed Instance Groups, MIGs) ein, um Ressourcen automatisch zu skalieren.
Benachrichtigungen zu Messwerten von Ihren NVIDIA-GPUs erhalten.

In diesem Dokument werden die Verfahren zum Überwachen von GPUs auf Linux-VMs mithilfe des Ops-Agents beschrieben. Alternativ steht auf GitHub ein Berichtsskript zur Verfügung, das auch für das Monitoring der GPU-Nutzung auf Linux-VMs eingerichtet werden kann. Siehe compute-gpu-monitoring-Monitoring-Skript. Dieses Skript wird nicht aktiv verwaltet.

Informationen zum Überwachen von GPUs auf Windows-VMs finden Sie unter GPU-Leistung (Windows) überwachen.

Überblick

Der Ops-Agent ab Version 2.38.0 kann die GPU-Auslastung und die Raten der GPU-Speichernutzung auf Ihren Linux-VMs, auf denen der Agent installiert ist, automatisch beobachten. Diese Messwerte, die aus der NVIDIA Management Library (NVML) abgerufen werden, werden pro GPU und pro Prozess für jeden Prozess erfasst, der GPUs verwendet. Informationen zu den vom Ops-Agent überwachten Messwerten finden Sie unter Agent-Messwerte: gpu.

Sie können auch die Integration des NVIDIA Data Center GPU Manager (DCGM) in den Ops-Agent einrichten. Durch diese Integration kann der Ops-Agent Messwerte mithilfe der Hardwarezähler auf der GPU verfolgen. DCGM bietet Zugriff auf die GPU-Gerätemesswerte. Dazu gehören Streaming-Multiprozessor-Blockade (SM-Blockauslastung), SM-Belegung, SM-Pipe-Auslastung, PCIe-Trafficrate und NVLink-Traffic-Rate. Informationen zu den vom Ops-Agent überwachten Messwerten finden Sie unter Messwerte von Drittanbieter-Anwendungen: NVIDIA Data Center GPU Manager (DCGM).

Führen Sie die folgenden Schritte aus, um die GPU-Messwerte mit dem Ops-Agent zu prüfen:

Prüfen Sie auf allen VMs, ob Sie die Anforderungen erfüllt haben.
Installieren Sie auf jeder VM den Ops-Agent.
Optional: Richten Sie auf jeder VM die NVIDIA Data Center GPU Manager-Integration (DCGM) ein.
Messwerte in Cloud Monitoring prüfen.

Beschränkungen

Der Ops-Agent beobachtet nicht die GPU-Auslastung auf VMs, die Container-Optimized OS verwenden.

Voraussetzungen

Prüfen Sie auf allen VMs, ob die folgenden Anforderungen erfüllt werden:

An jede VM müssen GPUs angehängt sein.
Auf jeder VM-Instanz muss ein GPU-Treiber installiert sein.
Das Linux-Betriebssystem und die Version für jede VM müssen den Ops-Agent unterstützen. Siehe die Liste der Linux-Betriebssysteme, die den Ops-Agent unterstützen.
Sie benötigen sudo-Zugriff auf die einzelnen VMs.

Ops-Agent installieren

Führen Sie die folgenden Schritte aus, um den Ops-Agent zu installieren:

Wenn Sie zuvor das compute-gpu-monitoring-Monitoring-Skript verwendet haben, um die GPU-Auslastung zu verfolgen, deaktivieren Sie den Dienst, bevor Sie den Ops-Agent installieren. Führen Sie den folgenden Befehl aus, um das Monitoring-Skript zu deaktivieren:
```
sudo systemctl --no-reload --now disable google_gpu_monitoring_agent
```
Installieren Sie die neueste Version des Ops-Agents. Eine ausführliche Anleitung finden Sie unter Ops-Agent installieren.
Wenn Sie den Ops-Agent installiert haben und Ihre GPU-Treiber mithilfe der von Compute Engine bereitgestellten Installationsskripts installieren oder aktualisieren müssen, lesen Sie die Einschränkungen.

Optional: Einbindung von NVIDIA Data Center GPU Manager (DCGM) einrichten

Der Ops-Agent bietet auch eine Einbindung für NVIDIA Data Center GPU Manager (DCGM), um wichtige GPU-Messwerte wie Streaming Multiprocessor (SM)-Blockauslastung, SM-Belegung, SM-Pipe-Auslastung, PCIe-Traffic-Rate, und NVLink-Traffic-Rate zu erfassen.

Diese erweiterten GPU-Messwerte werden nicht von NVIDIA K80-, P100- und P4-Modellen erfasst.

Eine ausführliche Anleitung zum Einrichten und Verwenden dieser Integration auf den einzelnen VMs finden Sie unter NVIDIA Data Center GPU Manager (DCGM).

Messwerte in Cloud Monitoring prüfen

Rufen Sie in der Google Cloud Console die Seite Monitoring > Dashboards auf.

Zu Monitoring
Wählen Sie den Tab Beispielbibliothek aus.
Geben Sie im Feld Filter NVIDIA ein. Das Dashboard NVIDIA GPU Monitoring – Übersicht (GCE und GKE) wird angezeigt.

Wenn Sie die Einbindung von NVIDIA Data Center GPU Manager (DCGM) eingerichtet haben, wird auch das Dashboard NVIDIA GPU Monitoring Advanced DCGM-Messwerte (nur GCE) angezeigt.
Klicken Sie im erforderlichen Dashboard auf Vorschau. Die Seite Beispiel-Dashboard-Vorschau wird angezeigt.
Klicken Sie auf der Seite Beispiel für die Dashboard-Vorschau auf Beispiel-Dashboard importieren.
- Im Dashboard NVIDIA GPU Monitoring – Übersicht (GCE und GKE) werden die GPU-Messwerte wie GPU-Auslastung, NIC-Traffic-Rate und GPU-Arbeitsspeichernutzung angezeigt.
  
  Die Anzeige der GPU-Auslastung sieht in etwa so aus:
- Im Dashboard Erweiterte DCGM-Messwerte der NVIDIA-GPU (nur GCE) werden wichtige erweiterte Messwerte angezeigt, z. B. die SM-Auslastung, SM-Belegung, senkrechte Pipe-Auslastung, PCIe-Trafficrate und NVLink Traffic-Rate.
  
  Ihre Anzeige mit erweiterten DCGM-Messwerten sieht in etwa so aus:

Nächste Schritte

GPU-Hostwartungen
Informationen zum Verbessern der Netzwerkleistung finden Sie unter Höhere Netzwerkbandbreite verwenden.