Raccogliere e visualizzare le metriche DCGM


Puoi monitorare l'utilizzo, le prestazioni e l'integrità della GPU configurando GKE per inviare le metriche di NVIDIA Data Center GPU Manager (DCGM) a Cloud Monitoring.

Quando abiliti le metriche DCGM, GKE installa lo strumento DCGM-Exporter, installa i driver GPU gestiti da Google ed esegue il deployment di una risorsa ClusterPodMonitoring per inviare metriche a Google Cloud Managed Service per Prometheus.

Puoi anche configurare DCGM autogestito se vuoi personalizzare il set di metriche DCGM o se hai un cluster che non soddisfa i requisiti per le metriche DCGM gestite.

Che cos'è il DCGM

NVIDIA Data Center GPU Manager (DCGM) è un set di strumenti di NVIDIA che consente di gestire e monitorare le GPU NVIDIA. DCGM offre una visione completa dell'uso, delle prestazioni e dell'integrità delle GPU.

  • Le metriche di utilizzo della GPU indicano l'attività della GPU monitorata e se viene utilizzata efficacemente per le attività di elaborazione. Sono incluse le metriche per elaborazione dei core, memoria, I/O e utilizzo dell'energia.
  • Le metriche delle prestazioni della GPU si riferiscono all'efficacia e all'efficienza con cui una GPU può eseguire un'attività di calcolo. Sono incluse le metriche per velocità orologio e temperatura.
  • Le metriche GPU I/0 come NVlink e PCIe misurano la larghezza di banda del trasferimento dei dati.

Prima di iniziare

Prima di iniziare, assicurati di aver eseguito le seguenti attività:

  • Abilita l'API Google Kubernetes Engine.
  • Abilita l'API Google Kubernetes Engine
  • Se vuoi utilizzare Google Cloud CLI per questa attività, installa e quindi initialize gcloud CLI. Se hai già installato gcloud CLI, ottieni la versione più recente eseguendo gcloud components update.

Requisiti per le metriche NVIDIA Data Center GPU Manager (DCGM)

Per raccogliere metriche NVIDIA Data Center GPU Manager (DCGM), il tuo cluster GKE deve soddisfare i seguenti requisiti:

Configura la raccolta delle metriche DCGM

Puoi abilitare GKE per raccogliere metriche DCGM per un cluster esistente utilizzando la console Google Cloud, gcloud CLI o Terraform.

Console

  1. Crea un pool di nodi GPU.

    Devi utilizzare Predefinito o Più recente per l'installazione dei driver GPU.

  2. Vai alla pagina Google Kubernetes Engine nella console Google Cloud.

    Vai a Google Kubernetes Engine

  3. Fai clic sul nome del cluster.

  4. Accanto a Cloud Monitoring, fai clic su .

  5. Seleziona SYSTEM e DCGM.

  6. Fai clic su Salva.

gcloud

  1. Crea un pool di nodi GPU.

    Devi usare default o latest per --gpu-driver-version.

  2. Aggiorna il cluster:

    gcloud container clusters update CLUSTER_NAME \
        --location=COMPUTE_LOCATION \
        --enable-managed-prometheus \
        --monitoring=SYSTEM,DCGM
    

    Sostituisci quanto segue:

Terraform

Per configurare la raccolta di metriche DCGM utilizzando Terraform, vedi il blocco monitoring_config nel registro Terraform per google_container_cluster. Per informazioni generali sull'utilizzo di Google Cloud con Terraform, consulta Terraform with Google Cloud.

Utilizza le metriche DCGM

Puoi visualizzare le metriche DCGM utilizzando le dashboard nella console Google Cloud o direttamente nelle pagine della panoramica del cluster e dei dettagli del cluster. Per informazioni, vedi Visualizzare le metriche di osservabilità.

Puoi visualizzare le metriche utilizzando la dashboard delle metriche di Grafana DCGM. Per maggiori informazioni, consulta Eseguire query con Grafana. In caso di errori, consulta la Compatibilità delle API.

Prezzi

Le metriche DCGM utilizzano Google Cloud Managed Service per Prometheus per caricare metriche in Cloud Monitoring. Gli addebiti di Cloud Monitoring per l'importazione di queste metriche si basano sul numero di campioni importati. Tuttavia, queste metriche sono gratuite per i cluster registrati che appartengono a un progetto in cui è abilitata la versione di GKE Enterprise.

Per ulteriori informazioni, consulta i prezzi di Cloud Monitoring.

Quota

Le metriche DCGM consumano la quota Richieste di importazione di serie temporali al minuto dell'API Cloud Monitoring. Prima di abilitare i pacchetti di metriche, controlla l'utilizzo recente recente di quella quota. Se hai molti cluster nello stesso progetto o stai già per raggiungere il limite di quota, puoi richiedere un aumento del limite di quota prima di abilitare uno dei due pacchetti di osservabilità.

Passaggi successivi