Monitoraggio delle prestazioni della GPU sulle VM Linux

Puoi monitorare metriche come l'utilizzo della GPU e la memoria GPU delle istanze di macchine virtuali (VM) utilizzando Ops Agent, la soluzione di raccolta della telemetria consigliata da Google per Compute Engine. Utilizzando Ops Agent, puoi gestire le VM GPU nel seguente modo:

  • Visualizza lo stato del tuo parco GPU NVIDIA con le nostre dashboard preconfigurate.
  • Ottimizza i costi identificando le GPU sottoutilizzate e consolidando i carichi di lavoro.
  • Pianifica la scalabilità esaminando le tendenze per decidere quando espandere la capacità delle GPU o eseguire l'upgrade delle GPU esistenti.
  • Utilizza le metriche di profilazione di NVIDIA Data Center GPU Manager (DCGM) per identificare colli di bottiglia e problemi di prestazioni all'interno delle tue GPU.
  • Configura gruppi di istanze gestite (MIG) per la scalabilità automatica delle risorse.
  • Ricevi avvisi sulle metriche delle tue GPU NVIDIA.

Questo documento illustra le procedure per il monitoraggio delle GPU sulle VM Linux utilizzando Ops Agent. In alternativa, su GitHub è disponibile uno script di reporting che può essere configurato anche per monitorare l'utilizzo delle GPU sulle VM Linux. Consulta lo script di monitoraggio di compute-gpu-monitoring. Questo script non è gestito attivamente.

Per il monitoraggio delle GPU sulle VM Windows, consulta Monitoraggio delle prestazioni delle GPU (Windows).

Panoramica

Ops Agent, versione 2.38.0 o successive, può monitorare automaticamente le percentuali di utilizzo della GPU e della memoria GPU sulle VM Linux su cui è installato l'agente. Queste metriche, ottenute dalla NVIDIA Management Library (NVML), vengono monitorate per GPU e per processo per qualsiasi processo che utilizzi GPU. Per visualizzare le metriche monitorate da Ops Agent, consulta Metriche degli agenti: gpu.

Puoi anche configurare l'integrazione di NVIDIA Data Center GPU Manager (DCGM) con Ops Agent. Questa integrazione consente a Ops Agent di tracciare le metriche utilizzando i contatori hardware sulla GPU. DCGM fornisce l'accesso alle metriche a livello di dispositivo GPU. Questi includono l'utilizzo dei blocchi di flussi multiprocessore (SM), il numero di persone SM, l'utilizzo delle tubature SM, la frequenza di traffico PCIe e quella di NVLink. Per visualizzare le metriche monitorate da Ops Agent, consulta Metriche delle applicazioni di terze parti: NVIDIA Data Center GPU Manager (DCGM).

Per esaminare le metriche della GPU utilizzando Ops Agent, segui questi passaggi:

  1. Su ogni VM, verifica di aver soddisfatto i requisiti.
  2. Installa Ops Agent su ogni VM.
  3. (Facoltativo) Su ogni VM, configura l'integrazione di NVIDIA Data Center GPU Manager (DCGM).
  4. Esamina le metriche in Cloud Monitoring.

Limitazioni

  • Ops Agent non tiene traccia dell'utilizzo della GPU nelle VM che utilizzano Container-Optimized OS.

Requisiti

Su ciascuna delle tue VM, verifica che soddisfi i seguenti requisiti:

  • A ogni VM devono essere collegate GPU.
  • In ogni VM deve essere installato un driver GPU.
  • Il sistema operativo Linux e la versione di ciascuna VM devono supportare l'Ops Agent. Consulta l'elenco dei sistemi operativi Linux che supportano Ops Agent.
  • Assicurati di avere accesso sudo a ogni VM.

Installazione dell'agente operativo

Per installare Ops Agent, segui questi passaggi:

  1. Se in precedenza utilizzavi lo script di monitoraggio compute-gpu-monitoring per monitorare l'utilizzo della GPU, disabilita il servizio prima di installare Ops Agent. Per disabilitare lo script di monitoraggio, esegui questo comando:

    sudo systemctl --no-reload --now disable google_gpu_monitoring_agent
  2. Installa la versione più recente di Ops Agent. Per istruzioni dettagliate, consulta Installazione di Ops Agent.

  3. Dopo aver installato Ops Agent, se devi installare o eseguire l'upgrade dei driver GPU utilizzando gli script di installazione forniti da Compute Engine, esamina la sezione Limitazioni.

(Facoltativo) Configura l'integrazione di NVIDIA Data Center GPU Manager (DCGM)

Ops Agent fornisce inoltre l'integrazione per NVIDIA Data Center GPU Manager (DCGM) per raccogliere metriche GPU avanzate chiave come l'utilizzo dei blocchi multiprocessore in modalità flusso (SM), il numero di persone SM, l'utilizzo della tubazione SM, la velocità di traffico PCIe e quella di NVLink.

Queste metriche GPU avanzate non vengono raccolte dai modelli NVIDIA K80, P100 e P4.

Per istruzioni dettagliate su come configurare e utilizzare questa integrazione su ogni VM, consulta NVIDIA Data Center GPU Manager (DCGM).

Esamina le metriche in Cloud Monitoring

  1. Nella console Google Cloud, vai alla pagina Monitoring > Dashboard.

    Vai a Monitoring

  2. Seleziona la scheda Raccolta di esempi.

  3. Nel campo Filtro, digita NVIDIA. Viene visualizzata la dashboard Panoramica sul monitoraggio delle GPU NVIDIA (GCE e GKE).

    Se hai configurato l'integrazione di NVIDIA Data Center GPU Manager (DCGM), viene visualizzata anche la dashboard NVIDIA GPU Monitoring Advanced DCGM Metrics (solo GCE).

    Dashboard di Cloud Monitoring

  4. Per la dashboard richiesta, fai clic su Anteprima. Viene visualizzata la pagina Anteprima della dashboard di esempio.

  5. Nella pagina Anteprima dashboard di esempio, fai clic su Importa dashboard di esempio.

    • La dashboard Panoramica sul monitoraggio delle GPU NVIDIA (GCE e GKE) mostra le metriche GPU come l'utilizzo della GPU, la frequenza del traffico NIC e l'utilizzo della memoria GPU.

      La visualizzazione dell'utilizzo della GPU è simile al seguente output:

      Cloud Monitoring (NVML)

    • La dashboard Metriche DCGM avanzate per il monitoraggio delle GPU NVIDIA (solo GCE) mostra le metriche avanzate principali come l'utilizzo di SM, il numero di persone in SM, l'utilizzo della tubazione SM, la frequenza di traffico PCIe e quella di NVLink.

      La visualizzazione della metrica DCGM avanzata è simile al seguente output:

      Cloud Monitoring (DCGM)

Che cosa succede dopo?