Vertex AI Experiments 简介

Vertex AI Experiments 工具可帮助您跟踪和分析不同的模型架构、超参数和训练环境,继而跟踪实验运行的各个步骤、输入和输出。Vertex AI Experiments 还可以评估您的模型在测试数据集上以及在训练运行期间的总体性能。之后,您便可以根据这些信息,为特定的使用场景选择最适合的模型。

实验运行作业不会产生额外费用。您只需为实验期间使用的资源付费,具体请参阅 Vertex AI 价格

您想要做什么? 查看笔记本示例
跟踪指标和参数 比较模型
跟踪实验沿袭 模型训练
跟踪流水线运行作业 比较流水线运行作业

跟踪步骤、输入和输出

借助 Vertex AI Experiments,您可以跟踪:

  • 实验运行作业的步骤,例如预处理、训练
  • 输入,例如算法、参数、数据集,
  • 这些步骤的输出,例如模型、检查点、指标。

然后,您可以找出哪些项有效、哪些项无效,并确定进一步的实验途径。

如需查看用户体验历程示例,请查看:

分析模型性能

借助 Vertex AI Experiments,您可以跟踪和评估训练运行期间模型针对测试数据集的总体表现情况。此功能可帮助您了解模型的性能特征:特定模型的整体表现、模型的缺陷以及模型的优势。

如需查看用户体验历程示例,请查看:

比较模型性能

借助 Vertex AI Experiments,您可以跨实验运行作业对多个模型进行分组和比较。每个模型都有自己的指定参数、建模技术、架构和输入。此方法有助于选择最佳模型。

如需查看用户体验历程示例,请查看:

搜索实验

Google Cloud 控制台提供实验的集中视图、实验运行的跨板块视图以及每个运行的详细信息。 Python 版 Vertex AI SDK 提供 API 来使用实验、实验运行、实验运行参数、指标和工件。

Vertex AI Experiments 以及 Vertex ML Metadata 提供了查找实验中跟踪的工件的方法,使您可以快速查看工件的沿袭以及运行中的步骤使用和生成的工件。

支持范围

Vertex AI Experiments 支持使用 Vertex AI 自定义训练、Vertex AI Workbench 笔记本、Notebooks 和大多数机器学习框架中的所有 Python 机器学习框架开发模型。对于某些机器学习框架(例如 TensorFlow),Vertex AI Experiments 提供与框架的深度集成,从而实现自动化的用户体验。对于其他机器学习框架,Vertex AI Experiments 提供了一个框架中立的 Python 版 Vertex AI SDK 供您使用。(请参阅适用于 TensorFlow、scikit-learn、PyTorch、XGBoost 的预构建容器。)

数据模型和概念

Vertex AI Experiments 是 Vertex ML Metadata 中的上下文,一个实验可以包含 n 个流水线运行作业以及 n 个实验运行作业。实验运行作业包含参数、摘要指标、时序指标以及 PipelineJobArtifactExecution Vertex AI 资源。Vertex AI TensorBoard 是开源 TensorBoard 的代管式版本,用于时序指标存储。您可以在 Google Cloud 控制台中查看流水线运行作业的执行和工件

Vertex AI Experiments 术语

实验、实验运行作业和流水线运行作业

实验
  • 实验是一个上下文,其中包含流水线运行作业以及一组 n 个实验运行作业,用户可以在其中集中调查不同的配置,如输入工件或超参数。
请参阅创建实验

实验运行作业
  • 实验运行作业可以包含用户定义的指标、参数、执行、工件和 Vertex 资源(例如 PipelineJob)。
请参阅创建和管理实验运行作业

流水线运行作业
  • 一个实验可以关联一个或多个 Vertex PipelineJob,其中每个 PipelineJob 均表示为一个单独的运行作业。在此上下文中,运行作业的参数由 PipelineJob 的参数推断。指标从该 PipelineJob 生成的 system.Metric 工件推断。运行作业的工件从该 PipelineJob 生成的工件推断。
一个或多个 Vertex AI PipelineJob 资源可以与 ExperimentRun 资源相关联。 在此上下文中,不会推断参数、指标和工件。

请参阅将流水线与实验关联

参数和指标

参数
  • 参数是键入的输入值,它们可配置运行作业,控制运行作业的行为,并影响运行作业的结果。例如学习速率、漏失率和训练步数。

请参阅记录参数

摘要指标
  • 摘要指标是实验运行作业中每个指标键的单一值。例如,实验的测试准确率是在训练结束时根据测试数据集计算得出的,可以作为单一值摘要指标捕获。

请参阅记录摘要指标

时序指标
  • 时序指标是纵向指标值,其中每个值表示运行作业的训练例程部分中的一步。时序指标存储在 Vertex AI TensorBoard 中。Vertex AI Experiments 存储对 Vertex TensorBoard 资源的引用。

请参阅记录时序指标

资源类型

流水线作业
  • 流水线作业或流水线运行对应于 Vertex AI API 中的 PipelineJob 资源。它是机器学习流水线定义的执行实例,该定义为由输入/输出依赖项相互关联的一组机器学习任务。

工件
  • 工件是机器学习工作流生成和使用的离散实体或数据块。工件的示例包括数据集、模型、输入文件和训练日志。

借助 Vertex AI Experiments,您可以使用架构来定义工件类型。例如,支持的架构类型包括 system.Datasetsystem.Modelsystem.Artifact。如需了解详情,请参阅系统架构

笔记本教程

后续步骤