Vertex AI Experiments 简介

使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

针对某个问题开发模型的目标是确定该特定用例的最佳模型。为实现此目标,Vertex AI Experiments 支持跨不同的机器学习框架(例如 TensorFlow、PyTorch、scikit-learn)和训练环境进行跟踪、分析、比较和搜索。

实验运行作业不会产生额外费用。您只需为实验期间使用的资源付费,具体请参阅 Vertex AI 价格

您想要做什么? 查看笔记本示例
跟踪指标和参数 比较模型
跟踪实验沿袭 模型训练
跟踪流水线运行作业 比较流水线运行作业

跟踪步骤、输入和输出

Vertex AI Experiments 支持跟踪

  • 实验运行作业的步骤,例如预处理、训练
  • 输入,例如算法、参数、数据集,
  • 这些步骤的输出,例如模型、检查点、指标。

然后,您可以找出哪些元素有效、哪些元素无效,并确定进一步的实验路径。

如需查看用户体验历程示例,请查看:

分析模型性能

借助 Vertex AI Experiments,您可以跟踪和评估训练运行期间模型在测试数据集上的总体性能。此功能可帮助您了解模型的性能特征:特定模型的整体表现、模型的缺陷以及模型的优势。

如需查看用户体验历程示例,请查看:

比较模型性能

借助 Vertex AI Experiments,您可以跨实验运行对多个模型进行分组和比较。每个模型都有自己的指定参数、建模技术、架构和输入。此方法有助于选择最佳模型。

如需查看用户体验历程示例,请查看:

搜索实验

Google Cloud 控制台提供实验的集中视图、实验运行的跨板块视图以及每个运行的详细信息。Python 版 Vertex AI SDK 提供 API 来使用实验、实验运行、实验运行参数、指标和工件。

Vertex AI Experiments 以及 Vertex ML Metadata 提供了查找实验中跟踪的工件的方法,使您可以快速查看工件的沿袭以及运行中的步骤使用和生成的工件。

支持范围

Vertex AI Experiments 支持使用 Vertex AI 自定义训练、Vertex AI Workbench 笔记本、Notebooks 和大多数机器学习框架中的所有 Python 机器学习框架开发模型。对于某些机器学习框架(例如 TensorFlow),Vertex AI Experiments 提供与框架的深度集成,从而实现自动化的用户体验。对于其他机器学习框架,Vertex AI Experiments 提供了一个框架中立的 Python 版 Vertex AI SDK 供您使用。(请参阅适用于 TensorFlow、sckikit-learn、PyTorch、XGBoost 的预构建容器)。

数据模型和概念

Vertex AI Experiments 是 Vertex ML Metadata 中的上下文,一个实验可以包含 n 个流水线运行作业以及 n 个实验运行作业。实验运行作业包含参数、摘要指标、时序指标、Vertex 资源 (PipelineJob)、工件和执行。Vertex AI TensorBoard 是开源 TensorBoard 的代管版本,用于时序指标存储。您可以在 Google Cloud 控制台中查看流水线运行作业的执行和工件

Vertex AI Experiments 术语

实验、实验运行作业和流水线运行作业

实验
实验是一个上下文,其中包含流水线运行作业以及一组 n 个实验运行作业,用户可以在其中集中调查不同的配置,如输入工件或超参数。
请参阅创建实验

实验运行作业
实验运行作业可以包含用户定义的指标、参数、执行、工件和 Vertex 资源(例如 PipelineJob)。
请参阅创建和管理实验运行作业

流水线运行作业
一个实验可以关联一个或多个 Vertex PipelineJob,其中每个 PipelineJob 均表示为一个单独的运行作业。在此上下文中,运行作业的参数由 PipelineJob 的参数推断。指标从该 PipelineJob 生成的 system.Metric 工件推断。运行作业的工件从该 PipelineJob 生成的工件推断。
一个 ExperimentRun 可以关联一个或多个 Vertex PipelineJob。 在此上下文中,不会推断参数、指标和工件。

请参阅将流水线与实验关联

参数和指标

参数
参数是键入的输入值,它们可配置运行作业,控制运行作业的行为,并影响运行作业的结果。例如学习速率、漏失率和训练步数。

请参阅记录参数

摘要指标
摘要指标是实验运行作业中每个指标键的单一值。例如,实验的测试准确率是在训练结束时根据测试数据集计算得出的,可以作为单一值摘要指标捕获。

请参阅记录摘要指标

时序指标
时序指标是纵向指标值,其中每个值表示运行作业的训练例程部分中的一步。时序指标存储在 Vertex AI TensorBoard 中。Vertex AI Experiments 存储对 Vertex TensorBoard 资源的引用。

请参阅记录时序指标

资源类型

流水线作业
Vertex AI API 中与 Vertex 流水线作业相对应的资源。用户想要在 Vertex AI 上运行机器学习流水线时创建 PipelineJob。

工件
工件是机器学习工作流生成和使用的离散实体或数据块。工件的示例包括数据集、模型、输入文件和训练日志。

Vertex AI Experiments 支持定义工件类型,例如,支持的类型包括 system.Datasetsystem.Modelsystem.Artifact

后续步骤