NVIDIA Data Center GPU Manager (DCGM)

L'integrazione di GPU Manager NVIDIA Data Center raccoglie metriche GPU avanzate chiave da DCGM, tra cui l'utilizzo dei blocchi di flussi multiprocessore (SM), il numero di persone SM, l'utilizzo della tubazione SM, la velocità di traffico PCIe e quella di NVLink. Per informazioni sullo scopo e sull'interpretazione di queste metriche, consulta Metriche di profilazione nella panoramica delle funzionalità DCGM.

Per ulteriori informazioni su NVIDIA Data Center GPU Manager, consulta la documentazione di DCGM. Questa integrazione è compatibile con DCGM versione 3.1 e successive.

Ops Agent raccoglie le metriche DCGM utilizzando la libreria client di NVIDIA go-dcgm.

Queste metriche sono disponibili solo per i sistemi Linux. Le metriche non vengono raccolte dai modelli GPU NVIDIA K80, P100 e P4.

Prerequisiti

Per raccogliere le metriche DCGM:

Installare DCGM e verificare l'installazione

Devi installare DCGM versione 3.1 e successive e assicurarti che venga eseguito come servizio con privilegi. Per installare DCGM, consulta Installazione nella documentazione di DCGM.

Per verificare che DCGM funzioni correttamente:

  1. Controlla lo stato del servizio DCGM eseguendo questo comando:

    sudo service nvidia-dcgm status
    

    Se il servizio è in esecuzione, il servizio nvidia-dcgm è elencato come active (running). L'output è simile al seguente:

    ● nvidia-dcgm.service - NVIDIA DCGM service
    Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled)
    Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago
    Main PID: 24388 (nv-hostengine)
    Tasks: 7 (limit: 14745)
    CGroup: /system.slice/nvidia-dcgm.service
           └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm
    
  2. Verifica che i dispositivi GPU vengano rilevati eseguendo questo comando:

    dcgmi discovery --list
    

    Se vengono rilevati dispositivi, l'output è simile al seguente:

    1 GPU found.
    +--------+----------------------------------------------------------------------+
    | GPU ID | Device Information                                                   |
    +--------+----------------------------------------------------------------------+
    | 0      | Name: NVIDIA A100-SXM4-40GB                                          |
    |        | PCI Bus ID: 00000000:00:04.0                                         |
    |        | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957                |
    +--------+----------------------------------------------------------------------+
    

Configurare Ops Agent per DCGM

Segui la guida per la configurazione di Ops Agent, aggiungi gli elementi richiesti per raccogliere i dati di telemetria dal servizio DCGM e riavvia l'agente.

Configurazione di esempio

I comandi seguenti creano la configurazione per raccogliere e importare la telemetria per DCGM e riavviare Ops Agent:

# Configures Ops Agent to collect telemetry from the app and restart Ops Agent.
set -e

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    dcgm:
      type: dcgm
  service:
    pipelines:
      dcgm:
        receivers:
          - dcgm
EOF

sudo systemctl restart google-cloud-ops-agent

Dopo aver eseguito questi comandi, puoi verificare che l'agente sia stato riavviato. Esegui il comando seguente e verifica che i componenti del sub-agente "Metrics Agent" e "Logging Agent" siano elencati come "attivi (in esecuzione)":

sudo systemctl status google-cloud-ops-agent"*"

Se utilizzi un account di servizio personalizzato anziché l'account di servizio Compute Engine predefinito, o se hai una VM di Compute Engine molto vecchia, potrebbe essere necessario autorizzare Ops Agent.

Configurazione della raccolta di metriche

Per importare le metriche da DCGM, devi creare un ricevitore per le metriche produttive e quindi creare una pipeline per il nuovo ricevitore.

Questo ricevitore non supporta l'utilizzo di più istanze nella configurazione, ad esempio per monitorare più endpoint. Tutte queste istanze scrivono nella stessa serie temporale e Cloud Monitoring non ha modo di distinguerle.

Per configurare un ricevitore per le metriche dcgm, specifica i seguenti campi:

Campo Predefinito Descrizione
collection_interval 60s Una durata, ad esempio 30s o 5m.
endpoint localhost:5555 Indirizzo del servizio DCGM, nel formato host:port.
type Questo valore deve essere dcgm.

Che cosa viene monitorato

La tabella seguente fornisce l'elenco delle metriche raccolte da Ops Agent dal servizio DCGM. Non tutte le metriche sono disponibili per tutti i modelli GPU. Le metriche non vengono raccolte dai modelli GPU NVIDIA K80, P100 e P4.

Tipo di metrica
Tipo, tipo
Risorse monitorate
Etichette
Modelli di GPU supportati
workload.googleapis.com/dcgm.gpu.profiling.dram_utilization
GAUGEDOUBLE
gce_instance
gpu_number
model
uuid
Tutti tranne K80, P100 e P4
GAUGEINT64
gce_instance
direction
gpu_number
model
uuid
Tutti tranne K80, P100 e P4
workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate
GAUGEINT64
gce_instance
direction
gpu_number
model
uuid
Tutti tranne K80, P100 e P4
workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization
GAUGEDOUBLE
gce_instance
gpu_number
model
pipe
uuid
Tutti tranne K80, P100 e P4. Per L4, il valore fp64 di pipe non è supportato.
workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy
GAUGEDOUBLE
gce_instance
gpu_number
model
uuid
Tutti tranne K80, P100 e P4
workload.googleapis.com/dcgm.gpu.profiling.sm_utilization
GAUGEDOUBLE
gce_instance
gpu_number
model
uuid
Tutti tranne K80, P100 e P4

Inoltre, la configurazione integrata per Ops Agent raccoglie anche le metriche agent.googleapis.com/gpu, che vengono segnalate dalla Management Library (NVML) NVIDIA. Per raccogliere queste metriche non è necessaria alcuna configurazione aggiuntiva in Ops Agent, ma devi creare la VM con GPU collegate e installare il driver GPU. Per maggiori informazioni, consulta Informazioni sulle metriche gpu.

Verificare la configurazione

Questa sezione descrive come verificare di aver configurato correttamente il ricevitore NVIDIA DCGM. Ops Agent potrebbe impiegare uno o due minuti per iniziare a raccogliere i dati di telemetria.

Per verificare che le metriche NVIDIA DCGM vengano inviate a Cloud Monitoring:

  1. Nella console Google Cloud, vai alla pagina Metrics Explorer :

    Vai a Metrics Explorer

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato il cui sottotitolo è Monitoring.

  2. Nella barra degli strumenti del riquadro del generatore di query, seleziona il pulsante il cui nome è  MQL o  PromQL.
  3. Verifica che sia selezionato MQL nel pulsante di attivazione/disattivazione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti che consente di formattare la query.
  4. Inserisci la seguente query nell'editor e fai clic su Esegui query:
    fetch gce_instance
    | metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization'
    | every 1m
    

Visualizza dashboard

Per visualizzare le metriche NVIDIA DCGM, devi aver configurato un grafico o una dashboard. L'integrazione NVIDIA DCGM include una o più dashboard per te. Tutte le dashboard vengono installate automaticamente dopo la configurazione dell'integrazione e dopo che Ops Agent ha iniziato a raccogliere i dati delle metriche.

Puoi anche visualizzare anteprime statiche delle dashboard senza installare l'integrazione.

Per visualizzare una dashboard installata, segui questi passaggi:

  1. Nella console Google Cloud, vai alla pagina  Dashboard:

    Vai a Dashboard

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato il cui sottotitolo è Monitoring.

  2. Seleziona la scheda Elenco dashboard, quindi scegli la categoria Integrazioni.
  3. Fai clic sul nome della dashboard da visualizzare.

Se hai configurato un'integrazione, ma la dashboard non è stata installata, verifica che Ops Agent sia in esecuzione. Se nella dashboard non sono disponibili dati delle metriche per un grafico, l'installazione della dashboard non riesce. Dopo che Ops Agent ha iniziato a raccogliere le metriche, la dashboard viene installata automaticamente.

Per visualizzare un'anteprima statica della dashboard:

  1. Nella console Google Cloud, vai alla pagina  Integrazioni:

    Vai a Integrazioni

    Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato il cui sottotitolo è Monitoring.

  2. Fai clic sul filtro piattaforma di deployment di Compute Engine.
  3. Individua la voce NVIDIA DCGM e fai clic su Visualizza dettagli.
  4. Seleziona la scheda Dashboard per visualizzare un'anteprima statica. Se la dashboard è installata, puoi accedervi facendo clic su Visualizza dashboard.

Per ulteriori informazioni sulle dashboard in Cloud Monitoring, consulta Dashboard e grafici.

Per ulteriori informazioni sull'utilizzo della pagina Integrazioni, consulta Gestire le integrazioni.

Limitazioni di DCGM e messa in pausa della profilazione

L'utilizzo simultaneo di DCGM può entrare in conflitto con l'utilizzo di altri strumenti per sviluppatori NVIDIA, come Nsight Systems o Nsight Compute. Questo limite si applica a NVIDIA A100 e GPU precedenti. Per ulteriori informazioni, consulta Profilazione della frequenza di campionamento nella supervisione delle caratteristiche DCGM.

Quando devi utilizzare strumenti come Nsight Systems senza interruzioni significative, puoi mettere temporaneamente in pausa o riprendere la raccolta delle metriche utilizzando i seguenti comandi:

dcgmi profile --pause
dcgmi profile --resume

Quando la profilazione è in pausa, nessuna delle metriche DCGM raccolte da Ops Agent viene emessa dalla VM.

Passaggi successivi

Per una procedura dettagliata su come utilizzare Ansible per installare Ops Agent, configurare un'applicazione di terze parti e installare una dashboard di esempio, consulta il video Installare Ops Agent per la risoluzione dei problemi delle applicazioni di terze parti.