L'integrazione di NVIDIA Data Center GPU Manager raccoglie le principali GPU avanzate
le metriche di DCGM. L'agente Ops può essere configurato per raccogliere uno di due diversi insiemi di metriche selezionando la versione del ricevitore dcgm
:
- La versione 2 del destinatario
dcgm
fornisce un'immagine selezionata insieme di metriche per il monitoraggio delle prestazioni e dello stato GPU collegate a una determinata istanza VM. - La versione 1 del ricevitore
dcgm
fornisce un insieme di metriche di profilazione destinate a essere utilizzate in combinazione con le metriche GPU predefinite. Per informazioni sullo scopo e sull'interpretazione di queste metriche, consulta Metriche di profilazione nella panoramica delle funzionalità del DCGM.
Per ulteriori informazioni sul gestore GPU NVIDIA Data Center, consulta DCGM documentazione. Questa integrazione è compatibile con DCGM 3.1 e versioni successive.
Queste metriche sono disponibili solo per i sistemi Linux. Le metriche di profilazione non vengono raccolte dai modelli GPU NVIDIA P100 e P4.
Prerequisiti
Per raccogliere le metriche NVIDIA DCGM, devi fare quanto segue:
-
- Metriche della versione 1: Ops Agent versione 2.38.0 o successive. Solo la versione di Ops Agent 2.38.0 o versioni 2.41.0 o successive sono compatibili con il monitoraggio GPU. Non installare Ops Agent versioni 2.39.0 e 2.40.0 sulle VM con GPU collegate. Per ulteriori informazioni, consulta Incidente dell'agente e report che menzionano NVIDIA.
- Metriche versione 2: Ops Agent versione 2.51.0 o successiva.
Installa DCGM e verifica l'installazione
Devi installare DCGM versione 3.1 e successive e assicurarti che venga eseguito come servizio privilegiato. Per installare DCGM, consulta la sezione Installazione della documentazione di DCGM.
Per verificare che DCGM funzioni correttamente, segui questi passaggi:
Controlla lo stato del servizio DCGM eseguendo questo comando:
sudo service nvidia-dcgm status
Se il servizio è in esecuzione, il servizio
nvidia-dcgm
è elencato comeactive (running)
. L'output è simile al seguente:● nvidia-dcgm.service - NVIDIA DCGM service Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled) Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago Main PID: 24388 (nv-hostengine) Tasks: 7 (limit: 14745) CGroup: /system.slice/nvidia-dcgm.service └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm
Verifica che i dispositivi GPU siano stati trovati eseguendo il seguente comando:
dcgmi discovery --list
Se vengono trovati dispositivi, l'output è simile al seguente:
1 GPU found. +--------+----------------------------------------------------------------------+ | GPU ID | Device Information | +--------+----------------------------------------------------------------------+ | 0 | Name: NVIDIA A100-SXM4-40GB | | | PCI Bus ID: 00000000:00:04.0 | | | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957 | +--------+----------------------------------------------------------------------+
Configura Ops Agent per DCGM
Seguendo la guida alla configurazione di Ops Agent, aggiungi gli elementi necessari per raccogliere la telemetria dal servizio DCGM e riavvia l'agente.
Configurazione di esempio
I comandi seguenti creano la configurazione per raccogliere e importare ricevi metriche della versione 2 per NVIDIA DCGM e riavvia Ops Agent:
Se vuoi raccogliere solo le metriche di profilazione DCGM, sostituisci il valore del campo receiver_version
con 1
. Puoi anche rimuovere completamente la voce receiver_version
. La versione predefinita è 1
.
Non puoi utilizzare entrambe le versioni contemporaneamente.
Dopo aver eseguito questi comandi, puoi verifica che l'agente sia stato riavviato. Esegui il seguente comando e verifica che i componenti dei subagenti "Agente di monitoraggio" e "Agente di logging" siano elencati come "attivi (in esecuzione)":
sudo systemctl status google-cloud-ops-agent"*"
Se utilizzi un account di servizio personalizzato anziché il service account predefinito di Compute Engine o se hai una VM Compute Engine molto vecchia, potresti dover autorizzare Ops Agent.
Configurazione della raccolta di metriche
Per importare le metriche da NVIDIA DCGM, devi creare un ricevitore per le metriche prodotto da NVIDIA DCGM, quindi crea una pipeline per il nuovo ricevitore.
Questo ricevitore non supporta l'utilizzo di più istanze nella configurazione, ad esempio per monitorare più endpoint. Tutte queste istanze scrivono nella stessa serie temporale, e Cloud Monitoring non ha modo di distinguerli.
Per configurare un ricevitore per le metriche dcgm
, specifica quanto segue
campi:
Campo | Predefinito | Descrizione |
---|---|---|
collection_interval |
60s |
Una durata di tempo, ad esempio 30s o 5m . |
endpoint |
localhost:5555 |
Indirizzo del servizio DCGM, formattato come host:port . |
receiver_version |
1 |
1 o 2. La versione 2 offre molte più metriche. |
type |
Questo valore deve essere dcgm . |
Che cosa viene monitorato
Le tabelle seguenti forniscono elenchi di metriche raccolte da Ops Agent dall'istanza NVIDIA DGCM. Non tutte le metriche sono disponibili per tutti i modelli di GPU. Le metriche di profilazione non vengono raccolte dai modelli GPU NVIDIA P100 e P4.
Metriche della versione 1
Le seguenti metriche vengono raccolte utilizzando la versione 1 del ricevitore dcgm
.
Tipo di metrica | |
---|---|
Tipo, Tipo Risorse monitorate |
Etichette |
workload.googleapis.com/dcgm.gpu.profiling.dram_utilization †
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/dcgm.gpu.profiling.nvlink_traffic_rate †
|
|
GAUGE , INT64 gce_instance |
direction gpu_number model uuid
|
workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate †
|
|
GAUGE , INT64 gce_instance |
direction gpu_number model uuid
|
workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization †
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model pipe ‡uuid
|
workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy †
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/dcgm.gpu.profiling.sm_utilization †
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
† Non disponibile sui modelli di GPU P100 e P4.
‡ Per L4, il valore pipe
fp64
non è supportato.
Metriche della versione 2
Le seguenti metriche vengono raccolte utilizzando la versione 2 del ricevitore dcgm
.
Tipo di metrica | |
---|---|
Tipo, Tipo Risorse monitorate |
Etichette |
workload.googleapis.com/gpu.dcgm.clock.frequency
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.clock.throttle_duration.time
|
|
CUMULATIVE , DOUBLE gce_instance |
gpu_number model uuid violation †
|
workload.googleapis.com/gpu.dcgm.codec.decoder.utilization
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.codec.encoder.utilization
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.ecc_errors
|
|
CUMULATIVE , INT64 gce_instance |
error_type gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.energy_consumption
|
|
CUMULATIVE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.memory.bandwidth_utilization
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.memory.bytes_used
|
|
GAUGE , INT64 gce_instance |
gpu_number model state uuid
|
workload.googleapis.com/gpu.dcgm.nvlink.io ‡
|
|
CUMULATIVE , INT64 gce_instance |
direction gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.pcie.io ‡
|
|
CUMULATIVE , INT64 gce_instance |
direction gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.pipe.utilization ‡
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model pipe §uuid
|
workload.googleapis.com/gpu.dcgm.sm.utilization ‡
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.temperature
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
workload.googleapis.com/gpu.dcgm.utilization
|
|
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
† Per P100 e P4, sono supportati solo i valori violation
power
, thermal
e sync_boost
.
‡ Non disponibile sui modelli GPU P100 e P4.
§ Per L4, il valore pipe
fp64
non è supportato.
Metriche GPU
Inoltre, la configurazione integrata per Ops Agent
raccoglie anche agent.googleapis.com/gpu
metriche, che
vengono segnalate da NVIDIA
Management Library (NVML).
Non è necessaria alcuna configurazione aggiuntiva in Ops Agent per raccogliere
queste metriche, ma devi
per creare la tua VM con GPU collegate
installare il driver GPU. Per ulteriori informazioni, consulta Informazioni sulle metriche gpu
. Le metriche della versione 1 del ricevitore dcgm
sono
progettato per integrare queste metriche predefinite, mentre dcgm
ricevitore versione 2
le metriche sono intese come autonome.
Verificare la configurazione
Questa sezione descrive come verificare di aver configurato correttamente il ricevitore NVIDIA DCGM. Potrebbero essere necessari uno o due minuti prima che Ops Agent inizi a raccogliere dati di telemetria.
Per verificare che le metriche NVIDIA DCGM vengano inviate a Cloud Monitoring, segui questi passaggi:
-
Nella console Google Cloud, vai alla pagina leaderboard Esplora metriche:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
- Nella barra degli strumenti del riquadro Query Builder, seleziona il pulsante code MQL o code PromQL.
- Verifica che sia selezionato MQL nel pulsante di attivazione/disattivazione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti. consente di formattare la query.
- Per le metriche v1, inserisci la seguente query nell'editor, quindi
Fai clic su Esegui query:
fetch gce_instance | metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization' | every 1m
- Per le metriche v2, inserisci la seguente query nell'editor, quindi
Fai clic su Esegui:
fetch gce_instance | metric 'workload.googleapis.com/gpu.dcgm.sm.utilization' | every 1m
Visualizza dashboard
Per visualizzare le metriche NVIDIA DCGM, devi disporre di un grafico o di una dashboard configurato. L'integrazione NVIDIA DCGM include una o più dashboard per te. Le dashboard vengono installate automaticamente dopo aver configurato l'integrazione e dopo che Ops Agent ha iniziato a raccogliere i dati delle metriche.
Puoi anche visualizzare anteprime statiche delle dashboard senza installando l'integrazione.
Per visualizzare una dashboard installata:
-
Nella console Google Cloud, vai alla pagina Dashboard:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
- Seleziona la scheda Elenco dashboard, quindi scegli la Categoria Integrazioni.
- Fai clic sul nome della dashboard che vuoi visualizzare.
Se hai configurato un'integrazione, ma la dashboard non è stata installata, controlla che l'agente operativo sia in esecuzione. Quando non c'è dati delle metriche per un grafico nella dashboard, l'installazione della dashboard non riesce. Dopo che Ops Agent inizia a raccogliere le metriche, la dashboard viene installata per te.
Per visualizzare un'anteprima statica della dashboard:
-
Nella console Google Cloud, vai alla pagina Integrazioni:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
- Fai clic sul filtro della piattaforma di deployment Compute Engine.
- Individua la voce relativa a NVIDIA DCGM e fai clic su Visualizza dettagli.
- Seleziona la scheda Dashboard per visualizzare un'anteprima statica. Se sia installata, quindi puoi accedervi facendo clic Visualizza dashboard.
Per saperne di più sulle dashboard in Cloud Monitoring, consulta Dashboard e grafici.
Per saperne di più sull'utilizzo della pagina Integrazioni, vedi Gestisci le integrazioni.
Limitazioni del DCGM e messa in pausa della profilazione
L'utilizzo simultaneo di DCGM può essere in conflitto con l'utilizzo di altri Strumenti per sviluppatori NVIDIA, come Nsight Systems o Nsight Compute. Questo limite si applica a NVIDIA A100 e alle GPU precedenti. Per ulteriori informazioni, consulta la sezione Tasso di campionamento del profilo nella panoramica delle funzionalità di DCGM.
Quando hai bisogno di usare strumenti come Nsight Systems senza subire interruzioni significative, puoi mettere in pausa o riprendere temporaneamente la raccolta delle metriche utilizzando seguenti comandi:
dcgmi profile --pause dcgmi profile --resume
Quando la profilazione è in pausa, nessuna delle metriche DCGM viene utilizzata da Ops Agent vengono emesse dalla VM.
Passaggi successivi
Per una procedura dettagliata su come utilizzare Ansible per installare l'Ops Agent, configurare un'applicazione di terze parti e installare una dashboard di esempio, guarda il video Installa l'Ops Agent per risolvere i problemi relativi alle applicazioni di terze parti.