选择自定义训练方法

如果您要编写自己的训练代码,而不使用 AutoML,可以通过以下几种方式进行自定义训练。本主题简要介绍运行自定义训练的不同方法。

Vertex AI 上的自定义训练资源

您可以创建三种类型的 Vertex AI 资源以在 Vertex AI 上训练自定义模型:

创建自定义作业时,您需要指定 Vertex AI 运行训练代码所需的设置,包括:

在工作器池中,您可以指定以下设置:

超参数调节作业具有配置额外设置,例如指标。详细了解超参数调节

训练流水线用其他步骤编排自定义训练作业或超参数调节作业,例如,在训练作业成功完成后加载数据集或将模型上传到 Vertex AI。

自定义训练资源

如需查看项目中的现有训练流水线,请转到 Google Cloud Console 的 Vertex AI 部分中的训练流水线页面。

转到“训练流水线”

要查看项目中的现有自定义作业,请转到自定义作业页面。

转到“自定义作业”

要查看项目中的现有超参数调节作业,请转到超参数调节页面。

转到超参数调节

预构建和自定义容器

在向 Vertex AI 提交自定义训练作业、超参数调节作业或训练流水线之前,您需要创建一个 Python 训练应用自定义容器 定义您要在 Vertex AI 上运行的训练代码和依赖项。如果您使用 TensorFlow、PyTorch、scikit-learn 或 XGBoost 创建 Python 训练应用,则可以使用我们的预构建容器运行您的代码。如果您不确定选择哪个选项,请参阅训练代码要求了解详情。

分布式训练

您可以通过指定多个工作器池,为自定义训练作业配置超参数调节作业、超参数调节作业或训练流水线:

  • 使用第一个工作器池配置主副本,并将副本计数设置为 1。
  • 添加更多工作器池来配置工作器副本、参数服务器副本或评估器副本(如果您的机器学习框架支持分布式训练的这些额外集群任务)。

详细了解如何使用分布式训练

后续步骤