L'integrazione di NVIDIA Data Center GPU Manager raccoglie le principali metriche GPU avanzate da DCGM, tra cui l'utilizzo dei blocchi di flussi di multiprocessore (SM), il numero di persone in SM, l'utilizzo delle tubature SM, la percentuale di traffico PCIe e quella di traffico NVLink. Per informazioni sullo scopo e sull'interpretazione di queste metriche, consulta Metriche di profilazione nella panoramica della funzionalità DCGM.
Per ulteriori informazioni su NVIDIA Data Center GPU Manager, consulta la documentazione di DCGM. Questa integrazione è compatibile con DCGM versione 3.1 e successive.
Ops Agent raccoglie le metriche DCGM utilizzando la libreria client NVIDIA go-dcgm
.
Queste metriche sono disponibili solo per i sistemi Linux. Le metriche non vengono raccolte dai modelli GPU NVIDIA K80, P100 e P4.
Prerequisiti
Per raccogliere le metriche DCGM:
Installa Ops Agent. Solo la versione 2.38.0 di Ops Agent o la versione 2.41.0 o successiva sono compatibili con il monitoraggio della GPU. Non installare le versioni 2.39.0 e 2.40.0 di Ops Agent sulle VM con GPU collegate. Per ulteriori informazioni, consulta Arresti anomali dell'agente e il report menziona NVIDIA.
Installa DCGM e verifica l'installazione
Devi installare un DCGM 3.1 e versioni successive e assicurarti che venga eseguito come servizio con privilegi. Per installare DCGM, consulta Installazione nella documentazione di DCGM.
Per verificare che DCGM funzioni correttamente:
Controlla lo stato del servizio DCGM eseguendo questo comando:
sudo service nvidia-dcgm status
Se il servizio è in esecuzione, il servizio
nvidia-dcgm
è elencato comeactive (running)
. L'output è simile al seguente:● nvidia-dcgm.service - NVIDIA DCGM service Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled) Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago Main PID: 24388 (nv-hostengine) Tasks: 7 (limit: 14745) CGroup: /system.slice/nvidia-dcgm.service └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm
Verifica che i dispositivi GPU siano trovati eseguendo questo comando:
dcgmi discovery --list
Se vengono rilevati dispositivi, l'output è simile al seguente:
1 GPU found. +--------+----------------------------------------------------------------------+ | GPU ID | Device Information | +--------+----------------------------------------------------------------------+ | 0 | Name: NVIDIA A100-SXM4-40GB | | | PCI Bus ID: 00000000:00:04.0 | | | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957 | +--------+----------------------------------------------------------------------+
Configurazione di Ops Agent per DCGM
Segui la guida per la configurazione di Ops Agent, aggiungi gli elementi richiesti per raccogliere la telemetria dal servizio DCGM e riavvia l'agente.
Configurazione di esempio
I seguenti comandi creano la configurazione per raccogliere e importare la telemetria per DCGM e riavviare Ops Agent:
# Configures Ops Agent to collect telemetry from the app and restart Ops Agent. set -e # Create a back up of the existing file so existing configurations are not lost. sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak # Configure the Ops Agent. sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF metrics: receivers: dcgm: type: dcgm service: pipelines: dcgm: receivers: - dcgm EOF sudo systemctl restart google-cloud-ops-agent
Dopo aver eseguito questi comandi, puoi verificare che l'agente sia stato riavviato. Esegui questo comando e verifica che i componenti dell'agente secondario "Metrics Agent" e "Logging Agent" siano elencati come "attivi (in esecuzione)":
sudo systemctl status google-cloud-ops-agent"*"
Se utilizzi un account di servizio personalizzato anziché l'account di servizio Compute Engine predefinito o se hai una VM di Compute Engine obsoleta, potresti dover autorizzare Ops Agent.
Configurazione della raccolta di metriche
Per importare le metriche da DCGM, devi creare un ricevitore per le metriche generate da DCGM, quindi creare una pipeline per il nuovo ricevitore.
Questo destinatario non supporta l'utilizzo di più istanze nella configurazione, ad esempio per monitorare più endpoint. Tutte queste istanze scrivono nella stessa serie temporale e Cloud Monitoring non ha modo di distinguerle.
Per configurare un ricevitore per le metriche dcgm
, specifica i seguenti campi:
Campo | Predefinito | Descrizione |
---|---|---|
collection_interval |
60s |
Una durata di tempo, ad esempio 30s o 5m . |
endpoint |
localhost:5555 |
Indirizzo del servizio DCGM, con formato host:port . |
type |
Questo valore deve essere dcgm . |
Che cosa viene monitorato
La tabella seguente fornisce l'elenco di metriche raccolte da Ops Agent dal servizio DCGM. Non tutte le metriche sono disponibili per tutti i modelli di GPU. Le metriche non vengono raccolte dai modelli GPU NVIDIA K80, P100 e P4.
Tipo di metrica | ||
---|---|---|
Tipo Risorse monitorate |
Etichette |
Modelli di GPU supportati |
workload.googleapis.com/dcgm.gpu.profiling.dram_utilization
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
Tutti tranne K80, P100 e P4 |
workload.googleapis.com/dcgm.gpu.profiling.nvlink_traffic_rate
|
||
GAUGE , INT64 gce_instance |
direction gpu_number model uuid
|
Tutti tranne K80, P100 e P4 |
workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate
|
||
GAUGE , INT64 gce_instance |
direction gpu_number model uuid
|
Tutti tranne K80, P100 e P4 |
workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model pipe uuid
|
Tutti tranne K80, P100 e P4. Per L4, il valore fp64 di pipe non è supportato.
|
workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
Tutti tranne K80, P100 e P4 |
workload.googleapis.com/dcgm.gpu.profiling.sm_utilization
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
Tutti tranne K80, P100 e P4 |
Inoltre, la configurazione integrata per Ops Agent raccoglie anche le metriche agent.googleapis.com/gpu
, riportate da NVIDIA Management Library (NVML).
Non è necessaria alcuna configurazione aggiuntiva in Ops Agent per raccogliere queste metriche, ma devi
creare la tua VM con GPU collegate e
installare il driver GPU. Per maggiori informazioni, consulta
Informazioni sulle
metriche gpu
.
Verificare la configurazione
Questa sezione descrive come verificare di aver configurato correttamente il ricevitore NVIDIA DCGM. Potrebbero essere necessari uno o due minuti prima che Ops Agent inizi a raccogliere i dati di telemetria.
Per verificare che le metriche NVIDIA DCGM vengano inviate a Cloud Monitoring, segui questi passaggi:
-
Nel pannello di navigazione della console Google Cloud, seleziona Monitoring e poi leaderboard Metrics Explorer:
- Nella barra degli strumenti del riquadro del generatore di query, seleziona il pulsante il cui nome è code MQL o code PromQL.
- Verifica che MQL sia selezionato nel pulsante di attivazione/disattivazione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti che consente di formattare la query.
- Inserisci la seguente query nell'editor e fai clic su Esegui query:
fetch gce_instance | metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization' | every 1m
Visualizza dashboard
Per visualizzare le metriche NVIDIA DCGM, devi aver configurato un grafico o una dashboard. L'integrazione NVIDIA DCGM include una o più dashboard. Le dashboard vengono installate automaticamente dopo la configurazione dell'integrazione e dopo che Ops Agent ha iniziato a raccogliere i dati delle metriche.
Puoi anche visualizzare anteprime statiche delle dashboard senza installare l'integrazione.
Per visualizzare una dashboard installata:
-
Nel pannello di navigazione della console Google Cloud, seleziona Monitoring, quindi seleziona Dashboard:
- Seleziona la scheda Elenco dashboard, quindi scegli la categoria Integrazioni.
- Fai clic sul nome della dashboard che vuoi visualizzare.
Se hai configurato un'integrazione, ma la dashboard non è stata installata, verifica che Ops Agent sia in esecuzione. Se non sono disponibili dati delle metriche per un grafico nella dashboard, l'installazione della dashboard non riesce. Una volta che Ops Agent inizia a raccogliere le metriche, la dashboard viene installata automaticamente.
Per visualizzare un'anteprima statica della dashboard:
-
Nel pannello di navigazione della console Google Cloud, seleziona Monitoring e poi Integrazioni:
- Fai clic sul filtro della piattaforma di deployment di Compute Engine.
- Individua la voce NVIDIA DCGM e fai clic su Visualizza dettagli.
- Seleziona la scheda Dashboard per visualizzare un'anteprima statica. Se la dashboard è installata, puoi accedervi facendo clic su Visualizza dashboard.
Per ulteriori informazioni sulle dashboard in Cloud Monitoring, consulta Dashboard e grafici.
Per saperne di più sull'utilizzo della pagina Integrazioni, consulta Gestire le integrazioni.
Limitazioni del DCGM e messa in pausa della profilazione
L'utilizzo simultaneo di DCGM può entrare in conflitto con l'utilizzo di altri strumenti per sviluppatori NVIDIA, come Nsight Systems o Nsight Compute. Questo limite si applica alle GPU NVIDIA A100 e precedenti. Per ulteriori informazioni, consulta Frequenza di campionamento per la profilazione nella supervisione delle funzionalità DCGM.
Quando devi utilizzare strumenti come Nsight Systems senza interruzioni significative, puoi mettere temporaneamente in pausa o riprendere la raccolta delle metriche utilizzando i seguenti comandi:
dcgmi profile --pause dcgmi profile --resume
Quando la profilazione è in pausa, nessuna delle metriche DCGM raccolte da Ops Agent viene emessa dalla VM.
Passaggi successivi
Per istruzioni dettagliate su come utilizzare Ansible per installare Ops Agent, configurare un'applicazione di terze parti e installare una dashboard di esempio, guarda il video Installare Ops Agent per risolvere i problemi delle applicazioni di terze parti.