Questo documento descrive come configurare il deployment di Google Kubernetes Engine in modo da poter utilizzare Google Cloud Managed Service per Prometheus per raccogliere le metriche da NVIDIA Data Center GPU Manager. Questo documento illustra come:
- Configura l'esportatore per DCGM in modo che registri le metriche.
- Configura una risorsa PodMonitoring per Managed Service per Prometheus per raccogliere le metriche esportate.
Queste istruzioni si applicano solo se utilizzi la raccolta gestita con Managed Service per Prometheus. Se utilizzi una raccolta di cui è stato eseguito il deployment autonomo, consulta il repository di origine per DCGM Exporter per informazioni sull'installazione.
Queste istruzioni sono fornite come esempio e dovrebbero funzionare nella maggior parte degli ambienti Kubernetes. Per informazioni su un'offerta DCGM gestita, consulta raccogliere e visualizzare le metriche DCGM.
Se hai difficoltà a installare un'applicazione o un esportatore a causa di criteri di sicurezza o organizzativi restrittivi, ti consigliamo di consultare la documentazione open source per ricevere assistenza.
Per informazioni su DCGM, consulta NVIDIA DCGM.
Prerequisiti
Per raccogliere le metriche da DCGM utilizzando Managed Service per Prometheus e la raccolta gestita, il tuo deployment deve soddisfare i seguenti requisiti:
- Sul cluster deve essere in esecuzione Google Kubernetes Engine versione 1.21.4-gke.300 o successiva.
- Devi eseguire Managed Service per Prometheus con la raccolta gestita abilitata. Per maggiori informazioni, consulta la guida introduttiva alla raccolta gestita.
Verifica di disporre di una quota sufficiente per le GPU NVIDIA.
Per enumerare i nodi GPU nel cluster GKE e i relativi tipi di GPU nel cluster pertinente, esegui il seguente comando:
kubectl get nodes -l cloud.google.com/gke-gpu -o jsonpath='{range .items[*]}{@.metadata.name}{" "}{@.metadata.labels.cloud\.google\.com/gke-accelerator}{"\n"}{end}'
Tieni presente che potresti dover installare un driver GPU NVIDIA compatibile sui nodi se l'installazione automatica è stata disattivata o non è supportata per la tua versione di GKE. Per verificare che il plug-in del dispositivo GPU NVIDIA sia in esecuzione, esegui il seguente comando:
kubectl get pods -n kube-system | grep nvidia-gpu-device-plugin
Installa l'esportatore DCGM
Ti consigliamo di installare l'esportatore DCGM,
DCGM-Exporter
, utilizzando la seguente configurazione:
Configura il port forwarding con il seguente comando:
kubectl -n gmp-public port-forward POD_NAME 9400
Accedi all'endpoint
localhost:9400/metrics
utilizzando il browser o l'utilitàcurl
in un'altra sessione del terminale.
Puoi personalizzare la sezione ConfigMap per selezionare le metriche GPU da emettere.
In alternativa, ti consigliamo di utilizzare il grafico Helm ufficiale per installare DCGM Exporter.
Per applicare le modifiche alla configurazione da un file locale, esegui il seguente comando:
kubectl apply -n NAMESPACE_NAME -f FILE_NAME
Puoi anche utilizzare Terraform per gestire le configurazioni.
Definisci una risorsa PodMonitoring
Per il rilevamento dei target, l'operatore Managed Service for Prometheus richiede una risorsa PodMonitoring che corrisponda all'esportatore DCGM nello stesso spazio dei nomi.
Puoi utilizzare la seguente configurazione di PodMonitoring:
Per applicare le modifiche alla configurazione da un file locale, esegui il seguente comando:
kubectl apply -n NAMESPACE_NAME -f FILE_NAME
Puoi anche utilizzare Terraform per gestire le configurazioni.
Verificare la configurazione
Puoi utilizzare Metrics Explorer per verificare di aver configurato correttamente l'esportatore DCGM. Potrebbero essere necessari uno o due minuti per il caricamento delle metriche da parte di Cloud Monitoring.
Per verificare che le metriche siano importate, procedi nel seguente modo:
-
Nella console Google Cloud, vai alla pagina leaderboard Esplora metriche:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
- Nella barra degli strumenti del riquadro Query Builder, seleziona il pulsante code MQL o code PromQL.
- Verifica che PromQL sia selezionato nel pulsante di attivazione/disattivazione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti che consente di formattare la query.
- Inserisci ed esegui la seguente query:
DCGM_FI_DEV_GPU_UTIL{cluster="CLUSTER_NAME", namespace="gmp-public"}
Risoluzione dei problemi
Per informazioni sulla risoluzione dei problemi di importazione delle metriche, consulta Problemi di raccolta dagli esportatori in Risoluzione dei problemi relativi all'importazione.