Surveiller les performances des GPU sur les VM Linux
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Linux
Vous pouvez suivre des métriques telles que l'utilisation du GPU et la mémoire du GPU sur vos instances de machine virtuelle (VM) à l'aide de l'agent Ops, la solution de collecte de télémétrie recommandée par Google pour Compute Engine.
En utilisant l'agent Ops, vous pouvez gérer vos VM avec GPU comme suit :
Visualisez l'état de votre parc de GPU NVIDIA à l'aide de nos tableaux de bord préconfigurés.
Optimisez les coûts en identifiant les GPU sous-utilisés et en consolidant les charges de travail.
Planifiez le scaling en examinant les tendances pour décider quand augmenter la capacité des GPU ou mettre à niveau les GPU existants.
Utilisez les métriques de profilage GPU (DCGM) de NVIDIA pour identifier les goulots d'étranglement et les problèmes de performances dans vos GPU.
Recevez des alertes sur les métriques de vos GPU NVIDIA.
Ce document décrit les procédures de surveillance des GPU sur les VM Linux à l'aide de l'agent Ops. Un script de création de rapports est également disponible sur GitHub. Vous pouvez également le configurer pour surveiller l'utilisation des GPU sur les VM Linux. Pour plus d'informations, consultez la page Script de surveillance compute-gpu-monitoring.
Ce script n'est pas activement géré.
L'agent Ops, version 2.38.0 ou ultérieure, peut suivre automatiquement l'utilisation du GPU et les taux d'utilisation de la mémoire GPU sur les VM Linux sur lesquelles l'agent est installé. Ces métriques, obtenues à partir de la bibliothèque de gestion NVIDIA (NVML), sont suivies par GPU et par processus, pour chaque processus utilisant des GPU.
Pour afficher les métriques surveillées par l'agent Ops, consultez Métriques d'agent : GPU.
Vous pouvez également configurer l'intégration du gestionnaire de GPU NVIDIA Data Center (DCGM) avec l'agent Ops. Cette intégration permet à l'agent Ops de suivre les métriques en utilisant les compteurs matériels sur le GPU. La DCGM permet d'accéder aux métriques au niveau du GPU. Celles-ci incluent l'utilisation des blocs de multiprocesseurs de flux (SM, Streaming Multiprocessor), l'occupation associée aux SM, l'utilisation du pipeline SM, le taux de trafic PCIe et le taux de trafic NVLink. Pour afficher les métriques surveillées par l'agent Ops, consultez la page Métriques des applications tierces : gestionnaire GPU de centre de données (DCGM) NVIDIA.
Pour examiner les métriques GPU à l'aide de l'agent Ops, procédez comme suit :
Le système d'exploitation Linux et la version de chacune de vos VM doivent être compatibles avec l'agent Ops. Consultez la liste des systèmes d'exploitation Linux compatibles avec l'agent Ops.
Assurez-vous de disposer d'un accès sudo à chaque VM.
Installer l'agent Ops
Pour installer l'agent Ops, procédez comme suit :
Si vous utilisiez le script de surveillance compute-gpu-monitoring pour suivre l'utilisation des GPU, désactivez le service avant d'installer l'agent Ops.
Pour désactiver le script de surveillance, exécutez la commande suivante :
Facultatif : configurer l'intégration du gestionnaire de GPU NVIDIA Data Center
L'agent Ops fournit également une intégration pour le gestionnaire GPU de centre de données (DCGM) NVIDIA, afin de collecter des métriques de GPU avancées clés, telles que l'utilisation de blocs de multiprocesseurs de flux (SM), l'occupation associée aux SM, l'utilisation du pipeline SM, le taux de trafic PCIe et le taux de trafic NVLink.
Ces métriques GPU avancées ne sont pas collectées à partir des modèles NVIDIA P100 et P4.
Dans le champ Filtrefilter_list, saisissez NVIDIA. Le tableau de bord Présentation de la surveillance des GPU NVIDIA (GCE et GKE) s'affiche.
Si vous avez configuré l'intégration du gestionnaire de GPU NVIDIA Data Center (DCGM), le tableau de bord Métriques DCGM avancées de surveillance des GPU NVIDIA s'affiche également.
Pour obtenir le tableau de bord requis, cliquez sur Aperçu. La page Exemple d'aperçu de tableau de bord s'affiche.
Sur la page Exemple d'aperçu de tableau de bord, cliquez sur Importer un exemple de tableau de bord.
Le tableau de bord Présentation de la surveillance des GPU NVIDIA (GCE et GKE) affiche les métriques de GPU, telles que l'utilisation du GPU, le taux de trafic de la carte d'interface réseau et l'utilisation de la mémoire du GPU.
L'affichage de votre utilisation du GPU est semblable au résultat suivant :
Le tableau de bord Métriques DCGM avancées de surveillance des GPU NVIDIA (GCE uniquement) affiche des métriques avancées telles que l'utilisation SM, l'occupation SM, l'utilisation de pipelines SM, le taux de trafic PCIe et taux de trafic NVLink.
Votre affichage de métrique DCGM avancée est similaire à ce qui suit :
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eThe Ops Agent, version 2.38.0 or later, is Google's recommended solution for tracking GPU utilization and memory on Linux virtual machines (VMs) and can manage your GPU VMs.\u003c/p\u003e\n"],["\u003cp\u003eUsing the Ops Agent, you can visualize GPU fleet health, optimize costs, plan scaling, identify bottlenecks with NVIDIA Data Center GPU Manager (DCGM) profiling metrics, and set alerts.\u003c/p\u003e\n"],["\u003cp\u003eThe Ops Agent collects metrics from the NVIDIA Management Library (NVML) and, with optional DCGM integration, can track advanced GPU metrics such as Streaming Multiprocessor utilization and PCIe traffic rate.\u003c/p\u003e\n"],["\u003cp\u003eTo use the Ops Agent, users must ensure their VMs have attached GPUs, installed GPU drivers, and support the Ops Agent with their Linux operating system, in addition to installing the agent.\u003c/p\u003e\n"],["\u003cp\u003eYou can review NVML metrics within the Compute Engine's Observability tab and review DCGM metrics in the Monitoring section, with provided dashboards.\u003c/p\u003e\n"]]],[],null,["# Monitoring GPU performance on Linux VMs\n\nLinux\n\n*** ** * ** ***\n\n| **Tip:** If you want to monitor A4 or A3 Ultra machine types that are deployed using the features provided by Cluster Director, see [Monitor VMs and clusters](/ai-hypercomputer/docs/monitor) in the AI Hypercomputer documentation instead.\n\nYou can track metrics such as GPU utilization and GPU memory from your\nvirtual machine (VM) instances by using the\n[Ops Agent](/stackdriver/docs/solutions/agents/ops-agent), which is\nGoogle's recommended telemetry collection solution for Compute Engine.\nBy using the Ops Agent, you can manage your GPU VMs as follows:\n\n- Visualize the health of your NVIDIA GPU fleet with our pre-configured dashboards.\n- Optimize costs by identifying underutilized GPUs and consolidating workloads.\n- Plan scaling by looking at trends to decide when to expand GPU capacity or upgrade existing GPUs.\n- Use NVIDIA Data Center GPU Manager (DCGM) profiling metrics to identify bottlenecks and performance issues within your GPUs.\n- Set up [managed instance groups (MIGs)](/compute/docs/instance-groups#managed_instance_groups) to autoscale resources.\n- Get alerts on metrics from your NVIDIA GPUs.\n\nThis document covers the procedures for monitoring GPUs on Linux VMs by using\nthe Ops Agent. Alternatively, a reporting script is available on GitHub that can\nalso be setup for monitoring GPU usage on Linux VMs, see\n[`compute-gpu-monitoring` monitoring script](https://github.com/GoogleCloudPlatform/compute-gpu-monitoring/tree/main/linux).\nThis script is not actively maintained.\n\nFor monitoring GPUs on Windows VMs, see\n[Monitoring GPU performance (Windows)](/compute/docs/gpus/monitor-gpus-windows).\n\nOverview\n--------\n\nThe Ops Agent, version 2.38.0 or later, can automatically track GPU\nutilization and GPU memory usage rates on your Linux VMs that have the agent\ninstalled. These metrics, obtained from the NVIDIA Management Library (NVML),\nare tracked per GPU and per process for any process that uses GPUs.\nTo view the metrics that are monitored by the Ops Agent,\nsee [Agent metrics: gpu](/monitoring/api/metrics_opsagent#agent-gpu).\n\nYou can also set up the NVIDIA Data Center GPU Manager (DCGM) integration with\nthe Ops Agent. This integration allows the Ops Agent to track metrics\nusing the hardware counters on the GPU. DCGM provides access to the\nGPU device-level metrics. These include Streaming Multiprocessor (SM)\nblock utilization, SM occupancy, SM pipe utilization, PCIe traffic rate,\nand NVLink traffic rate. To view the metrics monitored by the Ops Agent, see\n[Third-party application metrics: NVIDIA Data Center GPU Manager (DCGM)](/monitoring/api/metrics_opsagent#opsagent-dcgm).\n\nTo review GPU metrics by using the Ops Agent, complete the following steps:\n\n1. On each VM, check that you have met [the requirements](#requirements).\n2. On each VM, [install the Ops Agent](#install-ops-agent).\n3. Optional: On each VM, set up the [NVIDIA Data Center GPU Manager (DCGM) integration](#dcgm).\n4. Review [metrics in Cloud Monitoring](#review-metrics-dashboard).\n\nLimitations\n-----------\n\n- The Ops Agent doesn't track GPU utilization on VMs that use Container-Optimized OS.\n\nRequirements\n------------\n\nOn each of your VMs, check that you meet the following requirements:\n\n- Each VM must have [GPUs attached](/compute/docs/gpus/create-vm-with-gpus).\n- Each VM must have a [GPU driver installed](/compute/docs/gpus/install-drivers-gpu#verify-driver-install).\n- The Linux operating system and version for each of your VM must support the Ops Agent. See the list of [Linux operating systems](/stackdriver/docs/solutions/agents/ops-agent#linux_operating_systems) that support the Ops Agent.\n- Ensure you have `sudo` access to each VM.\n\nInstall the Ops Agent\n---------------------\n\nTo install the Ops Agent, complete the following steps:\n\n1. If you were previously using the\n [`compute-gpu-monitoring` monitoring script](https://github.com/GoogleCloudPlatform/compute-gpu-monitoring/tree/main/linux)\n to track GPU utilization, disable the service before installing the Ops Agent.\n To disable the monitoring script, run the following command:\n\n ```\n sudo systemctl --no-reload --now disable google_gpu_monitoring_agent\n ```\n2. Install the latest version of the Ops Agent. For detailed instructions, see\n [Installing the Ops Agent](/stackdriver/docs/solutions/agents/ops-agent/install-index).\n\n3. After you have installed the Ops agent, if you need to install or upgrade your\n GPU drivers by using the\n [installation scripts provided by Compute Engine](/compute/docs/gpus/install-drivers-gpu#installation_scripts),\n review the *limitations* section.\n\nReview NVML metrics in Compute Engine\n-------------------------------------\n\nYou can review the NVML metrics that the Ops Agent collects from the\n**Observability** tabs for Compute Engine Linux VM instances.\n\nTo view the metrics for a single VM do the following:\n\n1. In the Google Cloud console, go to the **VM instances** page.\n\n [Go to VM instances](https://console.cloud.google.com/compute/instances)\n2. Select a VM to open the **Details** page.\n\n3. Click the **Observability** tab to display information about the VM.\n\n4. Select the **GPU** quick filter.\n\nTo view the metrics for multiple VMs, do the following:\n\n1. In the Google Cloud console, go to the **VM instances** page.\n\n [Go to VM instances](https://console.cloud.google.com/compute/instances)\n2. Click the **Observability** tab.\n\n3. Select the **GPU** quick filter.\n\nOptional: Set up NVIDIA Data Center GPU Manager (DCGM) integration\n------------------------------------------------------------------\n\nThe Ops Agent also provides integration for NVIDIA Data Center GPU Manager\n(DCGM) to collect key advanced GPU metrics such as Streaming Multiprocessor (SM)\nblock utilization, SM occupancy, SM pipe utilization, PCIe traffic rate,\nand NVLink traffic rate.\n\nThese advanced GPU metrics are not collected from NVIDIA P100 and P4 models.\n\nFor detailed instructions on how to setup and use this integration on each VM,\nsee [NVIDIA Data Center GPU Manager (DCGM)](/stackdriver/docs/solutions/agents/ops-agent/third-party-nvidia).\n\nReview DCGM metrics in Cloud Monitoring\n---------------------------------------\n\n1. In the Google Cloud console, go to the **Monitoring \\\u003e Dashboards** page.\n\n [Go to Monitoring](https://console.cloud.google.com/monitoring/dashboards)\n2. Select the **Sample Library** tab.\n\n3. In the filter_list **Filter** field,\n type **NVIDIA** . The\n **NVIDIA GPU Monitoring Overview (GCE and GKE)**\n dashboard displays.\n\n If you have set up the NVIDIA Data Center GPU Manager (DCGM) integration, the\n **NVIDIA GPU Monitoring Advanced DCGM Metrics (GCE Only)**\n dashboard also displays.\n\n4. For the required dashboard, click **Preview** . The **Sample dashboard preview**\n page displays.\n\n5. From the **Sample dashboard preview** page, click **Import sample dashboard**.\n\n - The **NVIDIA GPU Monitoring Overview (GCE and GKE)**\n dashboard displays the GPU metrics such as GPU utilization, NIC traffic rate,\n and GPU memory usage.\n\n Your GPU utilization display is similar to the following output:\n\n - The\n **NVIDIA GPU Monitoring Advanced DCGM Metrics (GCE Only)**\n dashboard displays key advanced metrics such as SM utilization, SM occupancy,\n SM pipe utilization, PCIe traffic rate, and NVLink traffic rate.\n\n Your Advanced DCGM Metric display is similar to the following output:\n\nWhat's next?\n------------\n\n- To handle GPU host maintenance, see [Handling GPU host maintenance events](/compute/docs/gpus/gpu-host-maintenance).\n- To improve network performance, see [Use higher network bandwidth](/compute/docs/gpus/optimize-gpus)."]]