Cette page explique comment explorer les métriques NVIDIA Data Center GPU Manager (DCGM) associées à vos points de terminaison Vertex AI Inference.
Qu'est-ce que DCGM ?
Le gestionnaire de GPU de centre de données (DCGM) NVIDIA est un ensemble d'outils NVIDIA qui vous permettent de gérer et de surveiller les GPU NVIDIA. Vertex AI Inference exporte automatiquement les métriques DCGM Vertex AI vers Cloud Monitoring si vos points de terminaison utilisent des GPU compatibles. Ces métriques fournissent une vue complète de l'utilisation, des performances et de l'état des GPU.
Prérequis
Avant de commencer, assurez-vous que Cloud Monitoring est activé pour votre projet. Pour en savoir plus, consultez Activer l'API Monitoring.
Utiliser les métriques DCGM
Pour afficher les métriques DCGM dans l'explorateur de métriques, procédez comme suit :
Accédez à la page Explorateur de métriques dans la console Google Cloud .
Sous Sélectionner une métrique, sélectionnez Cible Prometheus.
Sous Catégories de métriques actives, sélectionnez Vertex.
Sous Métriques actives, sélectionnez la métrique souhaitée.
Cliquez sur Appliquer.
Vous pouvez également interroger les métriques à l'aide de Grafana ou de l'API ou de l'UI Prometheus.
Quota
Les métriques DCGM consomment le quota Requêtes d'ingestion de séries temporelles par minute de l'API Cloud Monitoring. Avant d'activer les packages de métriques, vérifiez votre utilisation maximale récente de ce quota. Si vous approchez déjà de la limite de ce quota, vous pouvez demander une augmentation de la limite de quota.
Métriques Vertex AI DCGM
Les noms des métriques Cloud Monitoring figurant dans ce tableau doivent être précédés du préfixe prometheus.googleapis.com/
. Ce préfixe a été omis dans les entrées du tableau.
En plus des libellés sur la ressource surveillée prometheus_target
, tous les libellés DCGM collectés sur Vertex AI sont associés aux libellés suivants :
Étiquettes GPU :
gpu_model
: modèle de l'appareil GPU, par exempleNVIDIA L4
.gpu_uuid
: UUID de l'appareil GPU.gpu_i_id
: ID de l'instance de GPU multi-instance (MIG) NVIDIA.
Libellés Vertex AI :
-
deployed_model_id
: ID d'un modèle déployé qui traite les requêtes d'inférence. model_display_name
: nom à afficher d'un modèle déployé.-
replica_id
: ID unique correspondant à l'instance répliquée du modèle déployé (nom du pod). endpoint_id
: ID d'un point de terminaison de modèle.endpoint_display_name
: nom à afficher d'un point de terminaison de modèle.-
product
: nom de la fonctionnalité sous Vertex AI. Cette valeur est toujoursOnline Inference
.
Nom de la métrique PromQL
Nom de la métrique Cloud Monitoring |
|
---|---|
Genre, Type, Unité
Ressources surveillées | Description |
vertex_dcgm_fi_dev_fb_free vertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Tampon de l'image disponible en Mo. |
vertex_dcgm_fi_dev_fb_total vertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Tampon total de l'image du GPU, en Mo. |
vertex_dcgm_fi_dev_fb_used vertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Tampon de l'image utilisé en Mo. |
vertex_dcgm_fi_dev_gpu_temp vertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Relevés de température actuels de l'appareil (en °C). |
vertex_dcgm_fi_dev_gpu_util vertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Utilisation du GPU (en %). |
vertex_dcgm_fi_dev_mem_copy_util vertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Utilisation de la mémoire (en %). |
vertex_dcgm_fi_dev_memory_temp vertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Température de la mémoire de l'appareil (en °C). |
vertex_dcgm_fi_dev_power_usage vertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Consommation d'énergie de l'appareil (en watts). |
vertex_dcgm_fi_dev_sm_clock vertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Fréquence d'horloge du multiprocesseur de flux (en MHz). |
vertex_dcgm_fi_dev_total_energy_consumption vertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE , DOUBLE , 1
prometheus_target
|
Consommation d'énergie totale du GPU en mJ depuis le dernier rechargement du pilote. |
vertex_dcgm_fi_prof_dram_active vertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Ratio des cycles pendant lesquels l'interface de mémoire de l'appareil est active pour envoyer ou recevoir des données. |
vertex_dcgm_fi_prof_gr_engine_active vertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Ratio de temps pendant lequel le moteur graphique est actif. |
vertex_dcgm_fi_prof_nvlink_rx_bytes vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Taux de données rx (lecture) NvLink actives en octets, y compris l'en-tête et la charge utile. |
vertex_dcgm_fi_prof_nvlink_tx_bytes vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Taux de données de transmission NvLink actives en octets, y compris l'en-tête et la charge utile. |
vertex_dcgm_fi_prof_pcie_rx_bytes vertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Taux de données PCIe rx (lecture) actives en octets, y compris l'en-tête et la charge utile. |
vertex_dcgm_fi_prof_pcie_tx_bytes vertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Taux de données de transmission PCIe actives en octets, y compris l'en-tête et la charge utile. |
vertex_dcgm_fi_prof_pipe_fp16_active vertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Ratio des cycles pendant lesquels le pipeline fp16 est actif. |
vertex_dcgm_fi_prof_pipe_fp32_active vertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Ratio des cycles pendant lesquels le pipeline fp32 est actif. |
vertex_dcgm_fi_prof_pipe_fp64_active vertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Ratio des cycles pendant lesquels le pipeline fp64 est actif. |
vertex_dcgm_fi_prof_pipe_tensor_active vertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Ratio des cycles pendant lesquels un canal Tensor est actif. |
vertex_dcgm_fi_prof_sm_active vertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE , DOUBLE , 1
prometheus_target
|
Ratio de cycles où un SM a au moins un warp associé. |
GPU compatibles
Tous les GPU NVIDIA sont compatibles, à l'exception des suivants en raison de contraintes de ressources :
Étapes suivantes
- En savoir plus sur l'explorateur de métriques