定义、构建和运行流水线后,您可以在 Metrics Explorer 中查看与流水线作业或流水线任务相关的指标。此外,您还可以使用 Cloud Logging 创建基于日志的自定义指标和提醒,以监控流水线故障等事件。
本页面介绍了如何执行以下操作:
在 Cloud Logging 中创建和查看自定义指标会产生与之关联的费用。如需了解详情,请参阅 Cloud Logging 价格。
在 Metrics Explorer 中查看标准 Vertex AI Pipelines 指标
您可以在 Metrics Explorer 中查看与 Vertex AI Pipelines 相关的以下指标:
流水线作业级指标:
使用
Vertex Pipelines Job - PipelineJob duration
指标查看流水线运行的运行时时长。使用
Location - Executing PipelineJobs
指标查看流水线运行次数。
流水线任务级指标:
使用
Vertex Pipelines Job - Completed PipelineTasks
查看已完成的流水线任务数量。使用
Location - Executing PipelineTasks
查看在流水线运行中执行的流水线任务数。
查看流水线作业的运行时时长
请按照以下说明在 Google Cloud 控制台中查看 Vertex Pipelines Job - PipelineJob duration
指标:
导航到 Metrics Explorer:
在指标列表中,选择 Vertex Pipelines 作业 > Pipelinejob > PipelineJob 时长。
点击应用。
可选:如需过滤查询,请点击过滤条件来指定一个或多个条件。例如:
如需查看特定流水线作业的运行时时长,请使用
pipeline_job_id
过滤条件。如需查看特定位置的流水线作业的运行时时长,请使用
location
过滤条件。如需查看
PIPELINE_JOB_RUNNING
、PIPELINE_JOB_CANCELLED
或PIPELINE_JOB_PENDING
状态的流水线作业的运行时时长,请使用run_state
过滤条件。
查看流水线运行数
请按照以下说明在 Google Cloud 控制台中查看 Location - Executing PipelineJobs
指标:
导航到 Metrics Explorer:
在指标列表中,选择位置 > Executing_vertexai_pipeline_jobs > 执行 PipelineJobs。
点击应用。
可选:如需过滤查询,请点击过滤条件来指定一个或多个条件。例如,如需查看特定位置的流水线作业数,请使用
location
过滤条件。
查看已完成的流水线任务数量
请按照以下说明在 Google Cloud 控制台中查看 Vertex Pipelines Job - Completed PipelineTasks
指标:
导航到 Metrics Explorer:
在指标列表中,选择 Vertex Pipelines 作业 > Pipelinejob > 已完成的 PipelineTasks。
点击应用。
可选:如需过滤查询,请点击过滤条件来指定一个或多个条件。例如:
如需查看特定流水线运行中完成的任务数量,请使用
pipeline_job_id
过滤条件。如需查看特定位置的流水线运行中完成的任务数量,请使用
location
过滤条件。
查看已执行的流水线任务数量
请按照以下说明在 Google Cloud 控制台中查看 Location - Executing PipelineTasks
指标:
导航到 Metrics Explorer:
在指标列表中,选择位置 > Executing_vertexai_pipeline_tasks > 执行 PipelineTasks。
点击应用。
可选:如需过滤查询,请点击过滤条件来指定一个或多个条件。例如,如需查看为特定位置执行的流水线任务数,请使用
location
过滤条件。
在 Logs Explorer 中创建和查看自定义指标
您可以在 Google Cloud 控制台中使用 Logs Explorer 来创建基于日志的自定义指标,用于跟踪和分析流水线日志中的模式。
自定义指标示例
本部分介绍了您可以创建的自定义指标示例。其中包括:
为失败的流水线作业创建自定义指标
要创建用于监控失败的流水线作业的基于日志的自定义计数器指标,请执行以下操作:
导航到日志浏览器:
选择相应的 Google Cloud 项目。
在资源下拉菜单中,选择 Vertex Pipelines 作业。
在位置下拉菜单中,选择流水线的位置。
在所有 pipeline_job_id 下拉菜单中,选择您的流水线作业的 ID。
点击应用。
点击创建指标。
在创建日志指标屏幕中,执行以下操作:
设置指标类型:选择计数器。
在详细信息部分中设置以下字段:
- 日志指标名称:输入日志指标的名称,例如
pipelinejob_failed
。选择在 Google Cloud 项目的基于日志的指标中唯一的名称。您需遵循一些命名限制。如需了解详情,请参阅问题排查。 - 说明:输入此指标的说明。
- 单位:将此字段留空或输入数字 1。
- 日志指标名称:输入日志指标的名称,例如
在过滤器选择部分中,定义指标过滤器。 使用日志记录查询语言创建一个过滤器,用于仅收集要在指标中计数的日志条目,例如:
resource.type="aiplatform.googleapis.com/PipelineJob" jsonPayload.state="PIPELINE_STATE_FAILED"
您还可以使用正则表达式来创建指标的过滤器。
点击预览日志可打开一个面板,其中会显示与您的过滤条件匹配的日志条目。
可选:在标签部分中添加标签。如需了解如何创建标签,请参阅创建标签。
要创建指标,请点击创建指标。
为最终的流水线状态创建自定义指标
要创建用于监控流水线作业最终状态的基于日志的自定义计数器指标,请执行以下操作:
导航到日志浏览器:
选择相应的 Google Cloud 项目。
在资源下拉菜单中,选择 Vertex Pipelines 作业。
在位置下拉菜单中,选择流水线的位置。
在所有 pipeline_job_id 下拉菜单中,选择您的流水线作业的 ID。
点击应用。
点击创建指标。
在创建日志指标屏幕中,执行以下操作:
设置指标类型:选择计数器。
在详细信息部分中设置以下字段:
- 日志指标名称:输入日志指标的名称,例如
Pipeline_state_final
。选择在 Google Cloud 项目的基于日志的指标中唯一的名称。您需遵循一些命名限制。如需了解详情,请参阅问题排查。 - 说明:输入此指标的说明。
- 单位:将此字段留空或输入数字 1。
- 日志指标名称:输入日志指标的名称,例如
在过滤器选择部分中,定义指标过滤器。 使用日志记录查询语言创建一个过滤器,用于仅收集要在指标中计数的日志条目,例如:
resource.type="aiplatform.googleapis.com/PipelineJob" jsonPayload.state="PIPELINE_STATE_SUCCEEDED" OR "PIPELINE_STATE_FAILED" OR "PIPELINE_STATE_CANCELLED"
您还可以使用正则表达式来创建指标的过滤器。
点击预览日志可打开一个面板,其中会显示与您的过滤条件匹配的日志条目。
可选:在标签部分中添加标签。如需了解如何创建标签,请参阅创建标签。
要创建指标,请点击创建指标。
查看流水线作业失败率
流水线作业失败率的计算方式为:最终状态的流水线作业数与失败的流水线作业数的比率。如需创建信息中心以监控流水线作业失败率,请执行以下操作:
创建一个指标以监控最终状态的流水线作业。如需了解详情,请参阅为最终的流水线状态创建自定义指标。
创建一个指标以监控失败状态的流水线作业。如需了解详情,请参阅为失败的流水线作业创建自定义指标。
在 Google Cloud 控制台的监控部分中,转到 Metrics Explorer 页面。
在配置标签页中,执行以下操作:
点击添加其他指标。
选择以比率的形式显示指标选项。选择此选项后:
时间序列 A 窗格会重命名为分子。
时间序列 B 窗格会重命名为分母。
在分子窗格中,点击选择指标以选择为失败的流水线作业创建的指标。
在分母窗格中,点击选择指标以选择为最终状态流水线作业创建的指标。
(可选)通过添加过滤条件或更新分组字段和校准参数来配置分子和分母。
如需详细了解如何添加过滤条件或更新分组字段和校准参数,请参阅绘制指标比率图表。
选择分子和分母后,流水线作业失败率将显示在图表中。
生成流水线作业失败率图表后,您可以将其添加到自定义信息中心。如需了解详情,请参阅保存图表以供日后参考。
如需复制包含图表配置的网址,请点击图表右上角的省略号图标,然后点击通过网址共享。