Questa pagina è stata tradotta dall'API Cloud Translation.

NVIDIA Data Center GPU Manager (DCGM)

L'integrazione di NVIDIA Data Center GPU Manager raccoglie le principali GPU avanzate le metriche di DCGM. Ops Agent può essere configurato per raccogliere uno di questi due set di metriche diversi selezionando la versione del ricevitore dcgm:

La versione 2 del destinatario dcgm fornisce un'immagine selezionata insieme di metriche per il monitoraggio delle prestazioni e dello stato GPU collegate a una determinata istanza VM.
La versione 1 del ricevitore dcgm fornisce un insieme di metriche di profilazione destinate a essere utilizzate in combinazione con le metriche GPU predefinite. Per informazioni sullo scopo e sull'interpretazione di queste metriche, consulta Metriche di profilazione nella panoramica delle funzionalità del DCGM.

Per ulteriori informazioni sul gestore GPU NVIDIA Data Center, consulta DCGM documentazione. Questa integrazione è compatibile con DCGM 3.1 e versioni successive.

Queste metriche sono disponibili solo per i sistemi Linux. Le metriche di profilazione non vengono raccolte dai modelli di GPU NVIDIA P100 e P4.

Prerequisiti

Per raccogliere le metriche NVIDIA DCGM, devi fare quanto segue:

Installa DCGM.
Installa l'agente operativo.
- Metriche della versione 1: Ops Agent versione 2.38.0 o successive. Solo la versione di Ops Agent 2.38.0 o versioni 2.41.0 o successive sono compatibili con il monitoraggio GPU. Non installare le versioni 2.39.0 e 2.40.0 di Ops Agent sulle VM con GPU collegate. Per ulteriori informazioni, vedi L'agente si arresta in modo anomalo e il report menziona NVIDIA.
- Metriche della versione 2: Ops Agent versione 2.51.0 o successive.

Installa DCGM e verifica l'installazione

Devi installare un DCGM versione 3.1 e successive e assicurarsi che venga eseguito come servizio con privilegi. Per installare DCGM, vedi Installazione. nella documentazione del DCGM.

Per verificare che DCGM funzioni correttamente:

Controlla lo stato del servizio DCGM eseguendo questo comando:

sudo service nvidia-dcgm status

Se il servizio è in esecuzione, il servizio nvidia-dcgm è elencato come active (running). L'output è simile al seguente:

● nvidia-dcgm.service - NVIDIA DCGM service
Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled)
Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago
Main PID: 24388 (nv-hostengine)
Tasks: 7 (limit: 14745)
CGroup: /system.slice/nvidia-dcgm.service
       └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm

Verifica che i dispositivi GPU vengano trovati eseguendo questo comando:

dcgmi discovery --list

Se vengono trovati dispositivi, l'output è simile al seguente:

1 GPU found.
+--------+----------------------------------------------------------------------+
| GPU ID | Device Information                                                   |
+--------+----------------------------------------------------------------------+
| 0      | Name: NVIDIA A100-SXM4-40GB                                          |
|        | PCI Bus ID: 00000000:00:04.0                                         |
|        | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957                |
+--------+----------------------------------------------------------------------+

Configura Ops Agent per DCGM

Seguendo la guida alla configurazione delle operazioni , aggiungere gli elementi richiesti per raccogliere dati di telemetria dal servizio DCGM e riavvia l'agente.

Configurazione di esempio

I comandi seguenti creano la configurazione per raccogliere e importare ricevi metriche della versione 2 per NVIDIA DCGM e riavvia Ops Agent:

# Configures Ops Agent to collect telemetry from the app and restart Ops Agent.
set -e

# Create a back up of the existing file so existing configurations are not lost.
sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak

# Configure the Ops Agent.
sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF
metrics:
  receivers:
    dcgm:
      type: dcgm
      receiver_version: 2
  service:
    pipelines:
      dcgm:
        receivers:
          - dcgm
EOF

sudo service google-cloud-ops-agent restart
sleep 20

Se vuoi raccogliere solo le metriche di profilazione DCGM, sostituisci il valore del campo receiver_version con 1. Puoi anche rimuovere Voce receiver_version interamente; la versione predefinita è 1. Non puoi utilizzare entrambe le versioni contemporaneamente.

Dopo aver eseguito questi comandi, puoi verificare che l'agente sia stato riavviato. Esegui questo comando e verifica che i componenti dell'agente secondario "Metrics Agent" e "Agente Logging" sono elencati come "active (in esecuzione)":

sudo systemctl status google-cloud-ops-agent"*"

Se utilizzi un account di servizio personalizzato anziché il service account predefinito di Compute Engine o se hai una VM Compute Engine molto vecchia, potresti dover autorizzare Ops Agent.

Configurazione della raccolta di metriche

Per importare le metriche da NVIDIA DCGM, devi creare un ricevitore per le metriche prodotte da NVIDIA DCGM e poi una pipeline per il nuovo ricevitore.

Questo ricevitore non supportare l'uso di più istanze nella configurazione, ad esempio per monitorare più endpoint. Tutte queste istanze scrivono nella stessa serie temporale e Cloud Monitoring non ha modo di distinguerle.

Per configurare un destinatario per le metriche dcgm, specifica i seguenti campi:

Campo	Predefinito	Descrizione
`collection_interval`	`60s`	Una durata di tempo, ad esempio `30s` o `5m`.
`endpoint`	`localhost:5555`	Indirizzo del servizio DCGM, formattato come `host:port`.
`receiver_version`	`1`	1 o 2. La versione 2 ha molte altre metriche disponibili.
`type`		Questo valore deve essere `dcgm`.

Che cosa viene monitorato

Le tabelle riportate di seguito forniscono gli elenchi delle metriche raccolte dall'agente Ops dall'istanza NVIDIA DGCM. Non tutte le metriche sono disponibili per tutti i modelli di GPU. Le metriche di profilazione non vengono raccolte dai modelli GPU NVIDIA P100 e P4.

Metriche della versione 1

Le seguenti metriche vengono raccolte utilizzando la versione 1 del ricevitore dcgm.

Tipo di metrica
Tipo, tipo Risorse monitorate	Etichette
`workload.googleapis.com/dcgm.gpu.profiling.dram_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.nvlink_traffic_rate` ^†
`GAUGE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate` ^†
`GAUGE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `pipe` ^‡ `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/dcgm.gpu.profiling.sm_utilization` ^†
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`

^† Non disponibile sui modelli di GPU P100 e P4.

^‡ Per L4, il valore pipe fp64 non è supportato.

Metriche della versione 2

Le seguenti metriche vengono raccolte utilizzando la versione 2 del ricevitore dcgm.

Tipo di metrica
Tipo, tipo Risorse monitorate	Etichette
`workload.googleapis.com/gpu.dcgm.clock.frequency`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.clock.throttle_duration.time`
`CUMULATIVE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid` `violation` ^†
`workload.googleapis.com/gpu.dcgm.codec.decoder.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.codec.encoder.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.ecc_errors`
`CUMULATIVE`, `INT64` gce_instance	`error_type` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.energy_consumption`
`CUMULATIVE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.memory.bandwidth_utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.memory.bytes_used`
`GAUGE`, `INT64` gce_instance	`gpu_number` `model` `state` `uuid`
`workload.googleapis.com/gpu.dcgm.nvlink.io` ^‡
`CUMULATIVE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.pcie.io` ^‡
`CUMULATIVE`, `INT64` gce_instance	`direction` `gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.pipe.utilization` ^‡
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `pipe` ^§ `uuid`
`workload.googleapis.com/gpu.dcgm.sm.utilization` ^‡
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.temperature`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`
`workload.googleapis.com/gpu.dcgm.utilization`
`GAUGE`, `DOUBLE` gce_instance	`gpu_number` `model` `uuid`

^† Per P100 e P4, sono supportati solo i valori violation power, thermal e sync_boost.

^‡ Non disponibile sui modelli GPU P100 e P4.

^§ Per L4, il valore pipe fp64 non è supportato.

Metriche GPU

Inoltre, la configurazione integrata per Ops Agent raccoglie anche agent.googleapis.com/gpu metriche, che vengono segnalate da NVIDIA Management Library (NVML). Non è necessaria alcuna configurazione aggiuntiva in Ops Agent per raccogliere queste metriche, ma devi creare la VM con le GPU collegate e installare il driver della GPU. Per ulteriori informazioni, vedi Informazioni su gpu metriche. Le metriche della versione 1 del ricevitore dcgm sono progettato per integrare queste metriche predefinite, mentre dcgm ricevitore versione 2 le metriche sono intese come autonome.

Verificare la configurazione

In questa sezione viene descritto come verificare la corretta configurazione del Ricevitore NVIDIA DCGM. L'inizio della raccolta della telemetria da parte di Ops Agent potrebbe richiedere uno o due minuti.

Per verificare che le metriche NVIDIA DCGM vengano inviate a Cloud Monitoring, segui questi passaggi:

Nella console Google Cloud, vai alla pagina Esplora metriche:
Vai a Esplora metriche

Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
Nella barra degli strumenti della riquadro Query Builder, seleziona il pulsante con MQL o PromQL.
Verifica che sia selezionato MQL con l'opzione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti. consente di formattare la query.

Per le metriche della versione 1, inserisci la seguente query nell'editor e poi fai clic su Esegui query:
```
fetch gce_instance
| metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization'
| every 1m
```
Per le metriche v2, inserisci la seguente query nell'editor, quindi Fai clic su Esegui:
```
fetch gce_instance
| metric 'workload.googleapis.com/gpu.dcgm.sm.utilization'
| every 1m
```

Visualizza dashboard

Per visualizzare le metriche NVIDIA DCGM, devi avere configurato un grafico o una dashboard. L'integrazione di NVIDIA DCGM include una o più dashboard. Le dashboard vengono installate automaticamente dopo aver configurato l'integrazione e dopo che Ops Agent ha iniziato a raccogliere i dati delle metriche.

Puoi anche visualizzare anteprime statiche delle dashboard senza installando l'integrazione.

Per visualizzare una dashboard installata:

Nella console Google Cloud, vai alla pagina Dashboard:
Vai a Dashboard

Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
Seleziona la scheda Elenco dashboard, quindi scegli la Categoria Integrazioni.
Fai clic sul nome della dashboard che vuoi visualizzare.

Se hai configurato un'integrazione, ma la dashboard non è stata installata, controlla che l'agente operativo sia in esecuzione. Quando non c'è dati delle metriche per un grafico nella dashboard, l'installazione della dashboard non riesce. Una volta che Ops Agent inizia a raccogliere le metriche, la dashboard viene installata per te.

Per visualizzare un'anteprima statica della dashboard:

Nella console Google Cloud, vai alla Integrazioni pagina:
Vai a Integrazioni

Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
Fai clic sul filtro della piattaforma di deployment di Compute Engine.
Individua la voce per NVIDIA DCGM e fai clic su Visualizza dettagli.
Seleziona la scheda Dashboard per visualizzare un'anteprima statica. Se la dashboard è installata, puoi accedervi facendo clic su Visualizza dashboard.

Per saperne di più sulle dashboard in Cloud Monitoring, consulta Dashboard e grafici.

Per ulteriori informazioni sull'utilizzo della pagina Integrazioni, consulta Gestire le integrazioni.

Limitazioni del DCGM e messa in pausa della profilazione

L'utilizzo simultaneo di DCGM può essere in conflitto con l'utilizzo di altri Strumenti per sviluppatori NVIDIA, come Nsight Systems o Nsight Compute. Questo limite si applica a NVIDIA A100 e alle GPU precedenti. Per ulteriori informazioni, consulta la sezione Tasso di campionamento del profilo nella panoramica delle funzionalità di DCGM.

Quando devi utilizzare strumenti come Nsight Systems senza interruzioni significative, puoi mettere in pausa o riprendere temporaneamente la raccolta delle metriche utilizzando i seguenti comandi:

dcgmi profile --pause
dcgmi profile --resume

Quando la profilazione è in pausa, nessuna delle metriche DCGM viene utilizzata da Ops Agent vengono emesse dalla VM.

Passaggi successivi

Per una procedura dettagliata su come utilizzare Ansible per installare Ops Agent, configura un'applicazione di terze parti e installare una dashboard di esempio, consulta Video: installa Ops Agent per risolvere i problemi relativi alle applicazioni di terze parti.