Afficher les métriques DCGM d'inférence Vertex AI

Cette page explique comment explorer les métriques NVIDIA Data Center GPU Manager (DCGM) associées à vos points de terminaison Vertex AI Inference.

Qu'est-ce que DCGM ?

Le gestionnaire de GPU de centre de données (DCGM) NVIDIA est un ensemble d'outils NVIDIA qui vous permettent de gérer et de surveiller les GPU NVIDIA. Vertex AI Inference exporte automatiquement les métriques DCGM Vertex AI vers Cloud Monitoring si vos points de terminaison utilisent des GPU compatibles. Ces métriques fournissent une vue complète de l'utilisation, des performances et de l'état des GPU.

Prérequis

Avant de commencer, assurez-vous que Cloud Monitoring est activé pour votre projet. Pour en savoir plus, consultez Activer l'API Monitoring.

Utiliser les métriques DCGM

Pour afficher les métriques DCGM dans l'explorateur de métriques, procédez comme suit :

  1. Accédez à la page Explorateur de métriques dans la console Google Cloud .

    Accéder à l'explorateur de métriques

  2. Sous Sélectionner une métrique, sélectionnez Cible Prometheus.

  3. Sous Catégories de métriques actives, sélectionnez Vertex.

  4. Sous Métriques actives, sélectionnez la métrique souhaitée.

  5. Cliquez sur Appliquer.

Vous pouvez également interroger les métriques à l'aide de Grafana ou de l'API ou de l'UI Prometheus.

Quota

Les métriques DCGM consomment le quota Requêtes d'ingestion de séries temporelles par minute de l'API Cloud Monitoring. Avant d'activer les packages de métriques, vérifiez votre utilisation maximale récente de ce quota. Si vous approchez déjà de la limite de ce quota, vous pouvez demander une augmentation de la limite de quota.

Métriques Vertex AI DCGM

Les noms des métriques Cloud Monitoring figurant dans ce tableau doivent être précédés du préfixe prometheus.googleapis.com/. Ce préfixe a été omis dans les entrées du tableau.

En plus des libellés sur la ressource surveillée prometheus_target, tous les libellés DCGM collectés sur Vertex AI sont associés aux libellés suivants :

Étiquettes GPU :

  • gpu_model : modèle de l'appareil GPU, par exemple NVIDIA L4.
  • gpu_uuid : UUID de l'appareil GPU.
  • gpu_i_id : ID de l'instance de GPU multi-instance (MIG) NVIDIA.

Libellés Vertex AI :

  • deployed_model_id : ID d'un modèle déployé qui traite les requêtes d'inférence.
  • model_display_name : nom à afficher d'un modèle déployé.
  • replica_id : ID unique correspondant à l'instance répliquée du modèle déployé (nom du pod).
  • endpoint_id : ID d'un point de terminaison de modèle.
  • endpoint_display_name : nom à afficher d'un point de terminaison de modèle.
  • product : nom de la fonctionnalité sous Vertex AI. Cette valeur est toujours Online Inference.
Nom de la métrique PromQL
Nom de la métrique Cloud Monitoring
Genre, Type, Unité
Ressources surveillées
Description
vertex_dcgm_fi_dev_fb_free
vertex_dcgm_fi_dev_fb_free/gauge

GAUGEDOUBLE1 prometheus_target Tampon de l'image disponible en Mo.
vertex_dcgm_fi_dev_fb_total
vertex_dcgm_fi_dev_fb_total/gauge

GAUGEDOUBLE1 prometheus_target Tampon total de l'image du GPU, en Mo.
vertex_dcgm_fi_dev_fb_used
vertex_dcgm_fi_dev_fb_used/gauge

GAUGEDOUBLE1 prometheus_target Tampon de l'image utilisé en Mo.
vertex_dcgm_fi_dev_gpu_temp
vertex_dcgm_fi_dev_gpu_temp/gauge

GAUGEDOUBLE1 prometheus_target Relevés de température actuels de l'appareil (en °C).
vertex_dcgm_fi_dev_gpu_util
vertex_dcgm_fi_dev_gpu_util/gauge

GAUGEDOUBLE1 prometheus_target Utilisation du GPU (en %).
vertex_dcgm_fi_dev_mem_copy_util
vertex_dcgm_fi_dev_mem_copy_util/gauge

GAUGEDOUBLE1 prometheus_target Utilisation de la mémoire (en %).
vertex_dcgm_fi_dev_memory_temp
vertex_dcgm_fi_dev_memory_temp/gauge

GAUGEDOUBLE1 prometheus_target Température de la mémoire de l'appareil (en °C).
vertex_dcgm_fi_dev_power_usage
vertex_dcgm_fi_dev_power_usage/gauge

GAUGEDOUBLE1 prometheus_target Consommation d'énergie de l'appareil (en watts).
vertex_dcgm_fi_dev_sm_clock
vertex_dcgm_fi_dev_sm_clock/gauge

GAUGEDOUBLE1 prometheus_target Fréquence d'horloge du multiprocesseur de flux (en MHz).
vertex_dcgm_fi_dev_total_energy_consumption
vertex_dcgm_fi_dev_total_energy_consumption/counter

CUMULATIVEDOUBLE1 prometheus_target Consommation d'énergie totale du GPU en mJ depuis le dernier rechargement du pilote.
vertex_dcgm_fi_prof_dram_active
vertex_dcgm_fi_prof_dram_active/gauge

GAUGEDOUBLE1 prometheus_target Ratio des cycles pendant lesquels l'interface de mémoire de l'appareil est active pour envoyer ou recevoir des données.
vertex_dcgm_fi_prof_gr_engine_active
vertex_dcgm_fi_prof_gr_engine_active/gauge

GAUGEDOUBLE1 prometheus_target Ratio de temps pendant lequel le moteur graphique est actif.
vertex_dcgm_fi_prof_nvlink_rx_bytes
vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Taux de données rx (lecture) NvLink actives en octets, y compris l'en-tête et la charge utile.
vertex_dcgm_fi_prof_nvlink_tx_bytes
vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Taux de données de transmission NvLink actives en octets, y compris l'en-tête et la charge utile.
vertex_dcgm_fi_prof_pcie_rx_bytes
vertex_dcgm_fi_prof_pcie_rx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Taux de données PCIe rx (lecture) actives en octets, y compris l'en-tête et la charge utile.
vertex_dcgm_fi_prof_pcie_tx_bytes
vertex_dcgm_fi_prof_pcie_tx_bytes/gauge

GAUGEDOUBLE1 prometheus_target Taux de données de transmission PCIe actives en octets, y compris l'en-tête et la charge utile.
vertex_dcgm_fi_prof_pipe_fp16_active
vertex_dcgm_fi_prof_pipe_fp16_active/gauge

GAUGEDOUBLE1 prometheus_target Ratio des cycles pendant lesquels le pipeline fp16 est actif.
vertex_dcgm_fi_prof_pipe_fp32_active
vertex_dcgm_fi_prof_pipe_fp32_active/gauge

GAUGEDOUBLE1 prometheus_target Ratio des cycles pendant lesquels le pipeline fp32 est actif.
vertex_dcgm_fi_prof_pipe_fp64_active
vertex_dcgm_fi_prof_pipe_fp64_active/gauge

GAUGEDOUBLE1 prometheus_target Ratio des cycles pendant lesquels le pipeline fp64 est actif.
vertex_dcgm_fi_prof_pipe_tensor_active
vertex_dcgm_fi_prof_pipe_tensor_active/gauge

GAUGEDOUBLE1 prometheus_target Ratio des cycles pendant lesquels un canal Tensor est actif.
vertex_dcgm_fi_prof_sm_active
vertex_dcgm_fi_prof_sm_active/gauge

GAUGEDOUBLE1 prometheus_target Ratio de cycles où un SM a au moins un warp associé.

GPU compatibles

Tous les GPU NVIDIA sont compatibles, à l'exception des suivants en raison de contraintes de ressources :

  1. NVIDIA P100
  2. NVIDIA V100
  3. NVIDIA P4
  4. NVIDIA T4

Étapes suivantes