Monitoraggio delle prestazioni delle GPU sulle VM Linux

Puoi monitorare metriche come l'utilizzo delle GPU e la memoria GPU dalle istanze delle tue macchine virtuali (VM) utilizzando Ops Agent, la soluzione di raccolta di telemetria consigliata da Google per Compute Engine. Utilizzando Ops Agent, puoi gestire le VM GPU come segue:

  • Visualizza l'integrità del tuo parco GPU NVIDIA con le nostre dashboard preconfigurate.
  • Ottimizza i costi identificando le GPU sottoutilizzate e consolidando i carichi di lavoro.
  • Pianifica la scalabilità esaminando le tendenze per decidere quando espandere la capacità della GPU o eseguire l'upgrade di GPU esistenti.
  • Utilizza le metriche di profilazione di NVIDIA Data Center GPU Manager (DCGM) per identificare colli di bottiglia e problemi di prestazioni all'interno delle GPU.
  • Configurare gruppi di istanze gestite per la scalabilità automatica delle risorse.
  • Ricevi avvisi sulle metriche delle tue GPU NVIDIA.

Questo documento illustra le procedure per il monitoraggio delle GPU sulle VM Linux tramite Ops Agent. In alternativa, su GitHub è disponibile uno script di report che può essere configurato anche per il monitoraggio dell'utilizzo della GPU sulle VM Linux. Consulta Script di monitoraggio compute-gpu-monitoring. Questo script non è gestito attivamente.

Per il monitoraggio delle GPU sulle VM Windows, consulta Monitoraggio delle prestazioni delle GPU (Windows).

Panoramica

Ops Agent, versione 2.38.0 o successiva, può tracciare automaticamente i tassi di utilizzo della memoria GPU e dell'utilizzo GPU sulle VM Linux su cui è installato l'agente. Queste metriche, ottenute dalla NVIDIA Management Library (NVML), vengono tracciate per GPU e per processo per qualsiasi processo che utilizza GPU. Per visualizzare le metriche monitorate da Ops Agent, consulta Metriche agente: gpu.

Puoi anche configurare l'integrazione di NVIDIA Data Center GPU Manager (DCGM) con Ops Agent. Questa integrazione consente a Ops Agent di tenere traccia delle metriche utilizzando i contatori hardware sulla GPU. DCGM dà accesso alle metriche a livello di dispositivo GPU. Questi includono l'utilizzo dei blocchi multiprocessore in modalità flusso (SM), l'occupazione da SM, l'utilizzo della pipeline SM, la frequenza di traffico PCIe e la frequenza di traffico di NVLink. Per visualizzare le metriche monitorate da Ops Agent, consulta Metriche delle applicazioni di terze parti: NVIDIA Data Center GPU Manager (DCGM).

Per esaminare le metriche GPU utilizzando Ops Agent, completa i seguenti passaggi:

  1. Su ogni VM, verifica di aver soddisfatto i requisiti.
  2. Installa Ops Agent su ogni VM.
  3. (Facoltativo) Su ogni VM, configura l'integrazione di NVIDIA Data Center GPU Manager (DCGM).
  4. Esamina le metriche in Cloud Monitoring.

Limitazioni

  • Ops Agent non tiene traccia dell'utilizzo della GPU sulle VM che utilizzano Container-Optimized OS.

Requisiti

Su ciascuna delle tue VM, verifica di soddisfare i seguenti requisiti:

  • A ogni VM devono essere collegate GPU.
  • Su ogni VM deve essere installato un driver GPU.
  • Il sistema operativo Linux e la versione di ciascuna VM devono supportare Ops Agent. Consulta l'elenco di sistemi operativi Linux che supportano Ops Agent.
  • Assicurati di avere accesso sudo a ogni VM.

Installazione dell'agente operativo

Per installare Ops Agent, completa i seguenti passaggi:

  1. Se in precedenza utilizzavi lo script di monitoraggio di compute-gpu-monitoring per monitorare l'utilizzo della GPU, disattiva il servizio prima di installare Ops Agent. Per disabilitare lo script di monitoraggio, esegui questo comando:

    sudo systemctl --no-reload --now disable google_gpu_monitoring_agent
  2. Installa la versione più recente di Ops Agent. Per istruzioni dettagliate, consulta Installazione di Ops Agent.

  3. Dopo aver installato Ops Agent, se devi installare o eseguire l'upgrade dei driver GPU utilizzando gli script di installazione forniti da Compute Engine, esamina la sezione relativa alle limitazioni.

(Facoltativo) Configura l'integrazione di NVIDIA Data Center GPU Manager (DCGM)

Ops Agent fornisce inoltre l'integrazione a NVIDIA Data Center GPU Manager (DCGM) per raccogliere metriche avanzate chiave della GPU come l'utilizzo dei blocchi multiprocessore (SM) di flussi, l'occupazione SM, l'utilizzo delle pipeline SM, la frequenza di traffico PCIe e la frequenza di traffico di NVLink.

Queste metriche GPU avanzate non vengono raccolte dai modelli NVIDIA P100 e P4.

Per istruzioni dettagliate su come configurare e utilizzare questa integrazione su ogni VM, consulta la pagina relativa al gestore delle GPU dei data center NVIDIA.

Esamina le metriche in Cloud Monitoring

  1. Nella console Google Cloud, vai alla pagina Monitoring > Dashboard.

    Vai a Monitoring

  2. Seleziona la scheda Raccolta di esempi.

  3. Nel campo Filtro di , digita NVIDIA. Viene visualizzata la dashboard Panoramica del monitoraggio GPU NVIDIA (GCE e GKE).

    Se hai configurato l'integrazione di NVIDIA Data Center GPU Manager (DCGM), viene visualizzata anche la dashboard NVIDIA GPU Monitoring Advanced DCGM Metrics (solo GCE).

    Dashboard di Cloud Monitoring

  4. Per la dashboard richiesta, fai clic su Anteprima. Viene visualizzata la pagina Anteprima dashboard di esempio.

  5. Nella pagina Anteprima della dashboard di esempio, fai clic su Importa dashboard di esempio.

    • La dashboard Panoramica del monitoraggio delle GPU NVIDIA (GCE e GKE) mostra le metriche delle GPU come l'utilizzo delle GPU, la frequenza del traffico NIC e l'utilizzo della memoria GPU.

      La visualizzazione dell'utilizzo della GPU è simile al seguente output:

      Cloud Monitoring (NVML)

    • La dashboard Metriche DCGM avanzate di monitoraggio GPU NVIDIA (solo GCE) visualizza le metriche avanzate chiave, come utilizzo SM, occupazione SM, utilizzo pipeline SM, frequenza di traffico PCIe e frequenza di traffico NVLink.

      La visualizzazione della metrica DCGM avanzata è simile al seguente output:

      Cloud Monitoring (DCGM)

Che cosa succede dopo?