Surveiller et optimiser les ressources des jobs en consultant les métriques
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Ce document explique comment surveiller et essayer d'optimiser les ressources d'un job Batch en affichant les métriques dans Cloud Monitoring.
Pour en savoir plus sur les ressources sur lesquelles un job s'exécute, consultez Ressources de job.
Pour chaque job, Monitoring fournit des métriques de base telles que l'utilisation du processeur et le trafic réseau. Toutefois, certaines métriques, telles que l'utilisation de la mémoire et des processus, ne peuvent être collectées que si un job installe l'agent Ops.
Les métriques pour les ressources d'un job vous aident à évaluer les performances et l'utilisation de chaque ressource. Ces informations peuvent vous aider à identifier les améliorations à apporter aux futures itérations du job. Par exemple, vous pouvez supprimer les ressources inutilisées pour optimiser les coûts, ou améliorer ou augmenter les ressources sollicitées pour améliorer les performances.
La section Observer et surveiller les VM de la documentation Compute Engine fournit des informations conceptuelles pertinentes sur les métriques de VM. Toutefois, différentes méthodes sont recommandées pour afficher les métriques de VM pour les jobs Batch. Plus précisément, la documentation Compute Engine explique comment afficher les métriques à l'aide des tableaux de bord Monitoring prédéfinis pour Compute Engine ou des pages Compute Engine dans la console Google Cloud .
Toutefois, il est important de noter que ces méthodes n'affichent pas d'informations sur les VM qui ont été supprimées. Par conséquent, n'utilisez pas ces méthodes, sauf si vous souhaitez uniquement afficher les métriques des jobs par lot pendant leur exécution.
Affichez les métriques des jobs Batch en cours d'exécution et terminés à l'aide des graphiques de l'explorateur de métriques, comme expliqué dans cette section.
Notez que les graphiques sont temporaires, sauf si vous les enregistrez dans des tableaux de bord personnalisés.
Pour créer un graphique permettant d'afficher une ou plusieurs métriques, procédez comme suit :
Sans filtres, chaque métrique de VM d'un graphique inclut les données de toutes les VM de votre projet. Si vous souhaitez filtrer le graphique pour n'inclure que les métriques de toutes les tâches par lot ou de certaines d'entre elles, ajoutez le filtre suivant :
Créer des groupes de ressources pour filtrer les métriques
Vous pouvez utiliser des groupes de ressources comme filtres personnalisables pour les graphiques de l'explorateur de métriques.
Pour créer un groupe de ressources pour tous les jobs Batch ou certains d'entre eux dans votre projet, procédez comme suit :
Sélectionnez un libellé à utiliser comme critère d'appartenance en fonction des jobs que vous souhaitez inclure dans le groupe :
Toutes les tâches Batch : utilisez le libellé prédéfini batch-node, qui est automatiquement appliqué à toutes les ressources de toutes les tâches Batch et qui a une valeur nulle.
Tâches Batch spécifiques : utilisez un libellé appliqué aux ressources uniquement pour des tâches Batch spécifiques.
Par exemple, si vous souhaitez créer un groupe basé sur des noms de postes complets ou partiels, utilisez le nom de libellé prédéfini batch-job-id avec une valeur spécifique.
Le libellé batch-job-id est automatiquement appliqué à toutes les ressources de toutes les tâches par lot et défini avec le nom de la tâche.
Si vous utilisez un libellé personnalisé, vous devez l'appliquer à toutes les ressources des jobs par lot que vous souhaitez inclure dans le groupe lorsque vous créez les jobs.
Assurez-vous que votre projet comporte au moins un job avec le libellé sélectionné et que ce job est à l'état RUNNING. Sinon, ce libellé n'apparaîtra pas comme option lorsque vous tenterez de créer le groupe de ressources.
Définissez le champ Tag sur le nom du libellé sélectionné. Définissez ensuite les champs suivants en fonction des valeurs de libellé que vous souhaitez inclure dans le groupe.
Par exemple, si vous souhaitez que ce groupe inclue tous les jobs par lot, définissez Tag sur batch-node et Operator sur Exists (Existe).
Si vous souhaitez que ce groupe inclue les jobs par lot dont le nom commence par test, définissez Tag sur batch-job-id, Operator sur Starts with (Commence par) et Value sur test.
Étapes suivantes
En savoir plus sur les métriques des ressources de job :
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/05 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/05 (UTC)."],[[["\u003cp\u003eThis guide explains how to monitor Batch job resources using Cloud Monitoring, focusing on metrics like CPU utilization and network traffic.\u003c/p\u003e\n"],["\u003cp\u003eInstalling the Ops Agent is required to collect advanced metrics such as memory and process utilization, providing a more comprehensive view of job performance.\u003c/p\u003e\n"],["\u003cp\u003eMetrics Explorer charts can be used to view metrics for both running and completed Batch jobs, but these charts are temporary unless saved to a custom dashboard.\u003c/p\u003e\n"],["\u003cp\u003eResource groups can be created to filter Metrics Explorer charts, allowing users to view metrics for all or specific Batch jobs by using predefined or custom labels.\u003c/p\u003e\n"],["\u003cp\u003eYou must have the Monitoring Metric Viewer role to view the observability metrics, and be aware that metrics are automatically deleted after the monitoring retention periods.\u003c/p\u003e\n"]]],[],null,["This document describes how to monitor and try to optimize the resources for a\nBatch job by viewing metrics in Cloud Monitoring.\nTo learn more about the resources that a job runs on, see\n[Job resources](/batch/docs/create-run-job#resources).\n\nFor any job, Monitoring provides basic metrics such as CPU\nutilization and network traffic. However, some metrics, such as memory and\nprocess utilization, can only be collected if a job installs the Ops Agent.\nMetrics for a job's resources help you evaluate the performance and utilization\nof each resource. This information can help you identify improvements for any\nfuture iterations of the job. For example, you might remove unutilized resources\nto help optimize costs, or you might improve or increase strained resources to\nhelp enhance performance.\n| **Note:** Monitoring and the Ops Agent feature are not part of Batch and have their own pricing. For more information, see [Monitoring pricing](/stackdriver/pricing#monitoring-pricing-summary) and [Ops Agent pricing](/stackdriver/docs/solutions/agents/ops-agent#pricing) in the Google Cloud Observability documentation.\n\nBefore you begin\n\n1. If you haven't used Batch before, review [Get started with Batch](/batch/docs/get-started) and enable Batch by completing the [prerequisites for projects and users](/batch/docs/get-started#prerequisites).\n2. Optional: To collect additional metrics for a job, [create and run\n a job that automatically installs the Ops Agent.](/batch/docs/create-run-job-ops-agent)\n3. If your project hasn't already, enable the Monitoring API:\n\n [Enable the API](https://console.cloud.google.com/flows/enableapi?apiid=monitoring.googleapis.com)\n4.\n\n To get the permissions that\n you need to view observability metrics,\n\n ask your administrator to grant you the\n\n\n [Monitoring Metric Viewer](/iam/docs/roles-permissions/monitoring#monitoring.metricViewer) (`roles/monitoring.metricViewer`)\n IAM role on the project.\n\n\n For more information about granting roles, see [Manage access to projects, folders, and organizations](/iam/docs/granting-changing-revoking-access).\n\n\n You might also be able to get\n the required permissions through [custom\n roles](/iam/docs/creating-custom-roles) or other [predefined\n roles](/iam/docs/roles-overview#predefined).\n\n\u003cbr /\u003e\n\nView metrics for job resources **Important:** You cannot view metrics after they are deleted, which happens automatically after the [Monitoring retention periods](/monitoring/quotas#data_retention_policy). If you need to retain metrics for a longer period, [export Monitoring metrics to BigQuery](/architecture/monitoring-metric-export).\n\n[Observe and monitor VMs](/compute/docs/instances/observe-monitor-vms) in\nthe Compute Engine documentation provides relevant conceptual information\nabout VM metrics; however, different methods are recommended for viewing\nVM metrics for Batch jobs. Specifically, the\nCompute Engine documentation explains how to view metrics by using the\npredefined Monitoring dashboards for Compute Engine or\nCompute Engine pages in the Google Cloud console.\nBut, importantly, those methods don't display information about VMs that have\nbeen deleted. As a result, don't use those methods unless you only want to view\nmetrics for Batch jobs while they are running.\n\nView metrics for running and finished Batch jobs by\nusing Metrics Explorer charts as explained in this section.\nNotably, charts are temporary unless you save\nthem to custom dashboards.\n| **Tip:** To see if your project already has a custom dashboard that you can use instead of creating a new chart, [view custom dashboards](/monitoring/charts/dashboards#view-dashboard).\n\nTo create a chart for viewing one or more metrics, do the following:\n\n1. Optional: If you plan to save the chart, [identify or create a custom dashboard](/monitoring/charts/dashboards) for the chart.\n2. [Create a Metrics Explorer chart for one or more metrics](/monitoring/charts/metrics-explorer).\n\n Without filters, each VM metric in a chart includes data from all the VMs in\n your project. Optionally, if you want to filter the chart to only include\n metrics from all or specific Batch jobs, add the following\n filter: \n\n group=\u003cvar translate=\"no\"\u003eRESOURCE_GROUP_NAME\u003c/var\u003e\n\n Replace \u003cvar translate=\"no\"\u003eRESOURCE_GROUP_NAME\u003c/var\u003e with the name of a\n resource group for Batch jobs. For more information, see\n [Create resource groups to filter metrics](#create-group-filter) in this\n document.\n\nCreate resource groups to filter metrics\n\nYou can use [resource groups](/monitoring/groups) as customizable filters\nfor Metrics Explorer charts.\nTo create a resource group for all or specific Batch jobs in\nyour project, do the following:\n\n1. Select a [label](/batch/docs/organize-resources-using-labels) to use\n as the membership criteria based on which jobs you want to include in the\n group:\n\n - **All Batch jobs:** Use the predefined `batch-node` label, which is automatically applied to all the resources for all Batch jobs and has a null value.\n - **Specific Batch jobs:** Use a label that is applied to\n the resources only for specific Batch jobs.\n\n For example, if you want to create a group based on full or partial job\n names, use the predefined `batch-job-id` label name with a specific value.\n The `batch-job-id` label is automatically applied to all the resources\n for all Batch jobs and defined with the job name.\n\n Alternatively, if you use a custom label, you must apply the\n custom label to all the resources of the Batch jobs that\n you want to be included in the group when you create the jobs.\n2. Ensure that your project has at least one job with your selected label and\n that this job is in the `RUNNING` state. Otherwise, this label won't\n appear as an option when you try to create the resource group.\n\n3. [Create a resource group](/monitoring/groups).\n When you are specifying the membership criteria, do the following:\n\n 1. Set the **Type** to **Tag**.\n 2. Set the **Tag** field to the name of your selected label. Then, set the\n following fields based on the label values that you want the group to\n include.\n\n For example, if you want this group to include all Batch\n jobs, set **Tag** to `batch-node`, and set **Operator** to **Exists** .\n Alternatively, you want this group to include Batch jobs\n with names that start with `test`, set **Tag** to `batch-job-id`,\n set **Operator** to **Starts with** , and set **Value** to `test`.\n\nWhat's next\n\n- Learn more about job resource metrics:\n - [Collect additional resource metrics using the Ops Agent](/batch/docs/create-run-job-ops-agent).\n - [Create and manage custom Monitoring dashboards](/monitoring/charts/dashboards).\n - [Monitor GPUs](/compute/docs/gpus/monitor-gpus).\n- Learn about other methods to monitor and optimize Batch jobs:\n - [Monitor job status using Pub/Sub notifications and BigQuery](/batch/docs/monitor-jobs-using-notifications).\n - [Colocate VMs to reduce latency](/batch/docs/create-run-job-placement-policy).\n - Learn about more [job creation options](/batch/docs/create-run-job#job-creation-options)."]]