Monitoraggio delle prestazioni delle GPU sulle VM Linux

Puoi tenere traccia di metriche come l'utilizzo delle GPU e la memoria GPU dal tuo di macchine virtuali (VM) utilizzando Ops Agent, ovvero La soluzione consigliata di Google per la raccolta di dati di telemetria per Compute Engine. Utilizzando Ops Agent, puoi gestire le VM GPU come segue:

  • Visualizza l'integrità del tuo parco GPU NVIDIA con il nostro le dashboard.
  • Ottimizza i costi identificando le GPU sottoutilizzate e consolidando i carichi di lavoro.
  • Pianifica la scalabilità esaminando le tendenze per decidere quando espandere la capacità della GPU oppure per eseguire l'upgrade delle GPU esistenti.
  • Utilizza le metriche di profilazione di NVIDIA Data Center GPU Manager (DCGM) per identificare colli di bottiglia e problemi di prestazioni delle GPU.
  • Configura gruppi di istanze gestite per scalare automaticamente le risorse.
  • Ricevi avvisi sulle metriche delle tue GPU NVIDIA.

Questo documento illustra le procedure per il monitoraggio delle GPU sulle VM Linux mediante l'uso di Ops Agent. In alternativa, su GitHub è disponibile uno script di reporting che può essere configurato anche per il monitoraggio dell'utilizzo delle GPU sulle VM Linux, consulta Script di monitoraggio compute-gpu-monitoring. Questo script non è gestito attivamente.

Per il monitoraggio delle GPU sulle VM Windows, consulta Monitoraggio delle prestazioni della GPU (Windows).

Panoramica

Ops Agent, versione 2.38.0 o successiva, può monitorare automaticamente le GPU di utilizzo della memoria GPU e l'utilizzo della memoria GPU sulle VM Linux che hanno installato. Queste metriche, ottenute dalla NVIDIA Management Library (NVML), vengono tracciati per GPU e per processo per qualsiasi processo che utilizza GPU. Per visualizzare le metriche monitorate da Ops Agent: consulta Metriche agente: gpu.

Puoi anche configurare l'integrazione di NVIDIA Data Center GPU Manager (DCGM) con Ops Agent. Questa integrazione consente a Ops Agent di monitorare le metriche utilizzando i contatori hardware sulla GPU. Il DCGM dà accesso Metriche GPU a livello di dispositivo. Questi includono streaming multiprocessore (SM) utilizzo dei blocchi, occupazione SM, utilizzo della pipeline SM, frequenza di traffico PCIe e la frequenza di traffico di NVLink. Per visualizzare le metriche monitorate da Ops Agent, consulta Metriche delle applicazioni di terze parti: NVIDIA Data Center GPU Manager (DCGM).

Per esaminare le metriche GPU utilizzando Ops Agent, completa i seguenti passaggi:

  1. Su ogni VM, verifica di aver soddisfatto i requisiti.
  2. Installa Ops Agent su ogni VM.
  3. (Facoltativo) Su ogni VM, configura l'integrazione di NVIDIA Data Center GPU Manager (DCGM).
  4. Esamina le metriche in Cloud Monitoring.

Limitazioni

  • Ops Agent non monitora l'utilizzo della GPU sulle VM che utilizzano Container-Optimized OS.

Requisiti

Su ciascuna delle tue VM, verifica di soddisfare i seguenti requisiti:

  • A ogni VM devono essere collegate GPU.
  • Su ogni VM deve essere installato un driver GPU.
  • Il sistema operativo Linux e la versione di ciascuna VM devono supportare Ops Agent. Visualizza l'elenco di Sistemi operativi Linux che supportano Ops Agent.
  • Assicurati di avere accesso sudo a ogni VM.

Installazione dell'agente operativo

Per installare Ops Agent, completa i seguenti passaggi:

  1. Se in precedenza utilizzavi Script di monitoraggio compute-gpu-monitoring per monitorare l'utilizzo della GPU, disabilita il servizio prima di installare Ops Agent. Per disabilitare lo script di monitoraggio, esegui questo comando:

    sudo systemctl --no-reload --now disable google_gpu_monitoring_agent
  2. Installa la versione più recente di Ops Agent. Per istruzioni dettagliate, vedi Installazione di Ops Agent.

  3. Dopo aver installato Ops Agent, se devi installare o eseguire l'upgrade del i driver GPU utilizzando script di installazione forniti da Compute Engine, consulta la sezione relativa alle limitazioni.

(Facoltativo) Configura l'integrazione di NVIDIA Data Center GPU Manager (DCGM)

Ops Agent fornisce anche l'integrazione per il gestore GPU NVIDIA Data Center (DCGM) per raccogliere metriche GPU avanzate come l'API Streaming Multiprocessor (SM) utilizzo dei blocchi, occupazione SM, utilizzo della pipeline SM, frequenza di traffico PCIe e la frequenza di traffico di NVLink.

Queste metriche GPU avanzate non vengono raccolte dai modelli NVIDIA P100 e P4.

Per istruzioni dettagliate su come configurare e utilizzare questa integrazione su ogni VM, consulta NVIDIA Data Center GPU Manager (DCGM).

Esamina le metriche in Cloud Monitoring

  1. Nella console Google Cloud, vai a Monitoring > Dashboard.

    Vai a Monitoring

  2. Seleziona la scheda Raccolta di esempi.

  3. Nel campo Filtro , digita NVIDIA. La Panoramica del monitoraggio GPU NVIDIA (GCE e GKE) della dashboard.

    Se hai configurato l'integrazione di NVIDIA Data Center GPU Manager (DCGM), il file Metriche DCGM avanzate per il monitoraggio delle GPU NVIDIA (solo GCE) della dashboard.

    Dashboard di Cloud Monitoring

  4. Per la dashboard richiesta, fai clic su Anteprima. L'anteprima della dashboard di esempio vengono visualizzate nella pagina di destinazione.

  5. Nella pagina Anteprima della dashboard di esempio, fai clic su Importa dashboard di esempio.

    • Panoramica del monitoraggio GPU NVIDIA (GCE e GKE) Nella dashboard vengono visualizzate le metriche GPU, come utilizzo GPU, frequenza di traffico NIC, e utilizzo della memoria GPU.

      La visualizzazione dell'utilizzo della GPU è simile al seguente output:

      Cloud Monitoring (NVML)

    • La Metriche DCGM avanzate per il monitoraggio delle GPU NVIDIA (solo GCE) la dashboard mostra le principali metriche avanzate, come l'utilizzo di SM, l'occupazione da SM, Utilizzo delle pipeline SM, frequenza di traffico PCIe e frequenza di traffico NVLink.

      La visualizzazione della metrica DCGM avanzata è simile al seguente output:

      Cloud Monitoring (DCGM)

Passaggi successivi