Vertex Pipelines 简介

机器学习操作 (MLOps) 是将 DevOps 策略应用于机器学习 (ML) 系统的做法。借助 DevOps 策略,您可以高效地构建和发布代码更改,以及监控系统以确保符合可靠性目标。MLOps 扩展了此做法,可帮助您缩短从数据提取到生产生产模型所需的时间,以监控和了解机器学习系统。

Vertex Pipelines 通过以无服务器方式编排机器学习工作流,并使用 Vertex ML 元数据存储工作流的工件,从而帮助您自动执行、监控和管理机器学习系统。通过将 ML 工作流程的工件存储在 Vertex ML Metadata 中,您可以分析工作流程的工件的血统 — 例如,ML 模型的沿袭可能包括训练数据、超参数和用于创建模型的代码。

了解机器学习流水线

如需在 Vertex Pipelines 上编排机器学习工作流,您必须先将工作流描述为流水线。机器学习流水线是基于容器的便携式和可扩缩的机器学习工作流程。机器学习流水线由一组输入参数和步骤组成。每个步骤都是流水线组件的一个实例。

您可以使用机器学习流水线进行以下操作:

  • 运用 MLOps 策略自动执行和监控可重复的流程。
  • 通过运行不同超参数集、训练步数或迭代次数等的机器学习工作流进行实验。
  • 重新使用流水线工作流来训练新模型。

您可以使用 Vertex Pipelines 运行使用 Kubeflow Pipelines SDK 或 TensorFlow Extended 构建的流水线。详细了解在 Kubeflow Pipelines SDK 和 TFX 之间选择

了解流水线组件

流水线组件是自包含代码集,该代码集可在流水线工作流中执行一个步骤,例如数据预处理、数据转换和训练模型。

组件由一组输入、一组输出和容器映像的位置组成。组件的容器映像是一个软件包,其中包含组件的可执行代码和代码运行环境的定义。

您可以构建自定义组件,也可以重复使用预构建组件。如需在流水线中使用 Vertex AI 的功能(如 AutoML),请使用 Google Cloud 流水线组件。详细了解如何在流水线中使用 Google Cloud 流水线组件

了解流水线工作流

流水线中的每个步骤都会执行该流水线的工作流。由于步骤是流水线组件的实例,因此步骤中包含输入、输出和容器映像。步骤输入可根据流水线的输入进行设置,也可以依赖于此流水线中其他步骤的输出。这些依赖项将流水线的工作流定义为有向非循环图。

例如,假设某个流水线包含以下步骤:

  • 提取数据:此步骤将训练数据加载到流水线中。
  • 预处理数据:此步骤对提取的训练数据进行预处理。
  • 训练模型:此步骤使用预处理的训练数据训练模型。
  • 评估模型:此步骤用于评估经过训练的模型。
  • 部署:该步骤会部署经过训练的模型以进行预测。

编译流水线时,流水线 SDK(Kubeflow Pipelines SDK 或 TFX)分析各步骤之间的数据依赖关系,以创建工作流图。

  • 提取数据步骤不依赖于任何其他任务,因此可以是工作流中的第一步,也可以与其他步骤同时运行。
  • 预处理数据步骤依赖于提取数据步骤生成的数据,因此必须在提取数据后进行预处理。
  • 模型训练步骤依赖于预处理的训练数据,因此必须在预处理数据之后训练模型。
  • 模型评估和部署经过训练的模型均依赖于经过训练的模型,因此必须在模型训练步骤完成后执行。模型评估和经过训练的模型的预测可以并发执行,因为它们都依赖于模型训练步骤。

根据此分析,Vertex Pipelines 会按顺序运行提取数据、预处理数据和模型训练步骤,然后并发运行模型评估和部署步骤。

了解机器学习工件的沿袭

为了理解机器学习系统的性能或准确性的变化,您必须能够分析流水线运行的元数据和机器学习工件的沿袭。工件的沿袭包括促使其创建的所有因素,以及从此工件派生的工件和元数据。以临时方式管理这些元数据可能会非常困难且耗时。

例如,模型的沿袭可包括以下各项:

  • 用于创建模型的训练、测试和评估数据。
  • 模型训练期间使用的超参数。
  • 用于训练模型的代码。
  • 在训练和评估过程中记录的元数据,例如模型的准确率。
  • 源自该模型的工件,例如批量预测的结果。

使用 Vertex Pipelines 运行流水线时,使用 Vertex ML Metadata 存储流水线运行的工件和元数据。您可以使用此元数据来帮助回答诸如以下问题:

  • 为什么某些流水线运行会产生特别准确的模型?
  • 哪次流水线运行产生的模型最准确,以及使用了哪些超参数来训练模型?
  • 根据流水线中的步骤,您或许可以使用 Vertex ML 元数据来回答系统治理问题。例如,您可以使用元数据来确定在给定时间点生产环境中的模型的版本。

详细了解如何直观呈现流水线运行情况分析机器学习工件的沿袭

后续步骤