本文档介绍了如何针对 通过查看 Cloud Monitoring 中的指标进行批量作业。 如需详细了解运行作业的资源,请参阅 作业资源。
对于任何作业,Monitoring 都提供基本指标,如 CPU 包括利用率和网络流量等但某些指标(如内存和 进程利用率,只有在作业安装 Ops Agent 时才能收集。 作业资源的指标可帮助您评估性能和利用率 每个资源的这些信息有助于您发现 作业的未来迭代。例如,您可以移除未使用的资源 以帮助优化成本,或者为了优化成本, 有助于提高性能
准备工作
- 如果您以前没有使用过 Batch,请参阅 Batch 使用入门 并通过填写 针对项目和用户的前提条件。
- 可选:要收集作业的其他指标, 创建并运行 一个自动安装 Ops Agent 的作业。
- 如果您的项目尚未启用 Monitoring API,请启用:
-
如需获取查看可观测性指标所需的权限, 请让管理员授予您 项目的 Monitoring Metric Viewer (
roles/monitoring.metricViewer
) IAM 角色。 如需详细了解如何授予角色,请参阅管理访问权限。
查看作业资源的指标
观察和监控虚拟机: Compute Engine 文档提供了相关概念信息 虚拟机指标;不过,建议您通过其他方式 Batch 作业的虚拟机指标。具体而言, Compute Engine 文档介绍了如何使用 Compute Engine 的预定义 Monitoring 信息中心,或 Google Cloud 控制台中的 Compute Engine 页面。 但重要的是,这些方法不会显示 已删除。因此,除非您只想查看 监控其运行状态
查看运行和已完成的批量作业的指标 使用 Metrics Explorer 图表。 值得注意的是,图表是临时性的,除非您先保存 自定义信息中心
如需创建图表以查看一个或多个指标,请执行以下操作:
- 可选:如果您打算保存图表, 识别或创建自定义信息中心 。
为一个或多个指标创建 Metrics Explorer 图表。
如果不设置过滤条件,图表中的每个虚拟机指标都会包含此区域中所有虚拟机的数据 自己的项目(可选)如果您想过滤图表,使其仅包含 所有或特定 Batch 作业的指标,请添加以下内容 过滤条件:
group=RESOURCE_GROUP_NAME
将
RESOURCE_GROUP_NAME
替换为 适用于批处理作业的资源组。如需了解详情,请参阅 创建资源组以过滤指标 文档。
创建资源组以过滤指标
您可以将资源组用作可自定义的过滤条件 。 要在以下位置为所有或特定 Batch 作业创建资源组 ,请执行以下操作:
选择要使用的标签 作为成员资格条件,具体选择哪个条件取决于您要添加到 群组:
- 所有批量作业:使用
预定义的
batch-node
标签,该标签会自动应用于 并且具有 null 值。 特定批处理作业:使用应用于 特定批处理作业的资源。
例如,您想根据全部或部分作业创建群组 请使用包含特定值的预定义
batch-job-id
标签名称。batch-job-id
标签会自动应用于所有资源 并使用作业名称进行定义。另外,如果您使用自定义标签,则必须将 为批量作业中的所有资源添加标签 。
- 所有批量作业:使用
预定义的
确保您的项目中至少有一个作业具有您选择的标签,并且 表示此作业处于
RUNNING
状态。否则,此标签将不会 显示为一个选项。创建资源组。 指定成员资格条件时,请执行以下操作:
- 将类型设置为代码。
将标记字段设置为所选标签的名称。然后,设置 根据您希望为群组添加的标签值, 包括。
例如,如果您希望此组包含所有 Batch 作业,将标记设置为
batch-node
,并将运算符设置为存在。 或者,您希望此群组包含批量作业 对于以test
开头的名称,请将 Tag 设置为batch-job-id
, 将 Operator 设置为 Starts with,并将 Value 设置为test
。
后续步骤
- 详细了解作业资源指标:
- 了解监控和优化批量作业的其他方法: