本页面介绍如何在 Vertex AI 上运行 TensorFlow Keras 训练应用。该特定模型会训练可按类型对花卉进行分类的图片分类模型。
本教程包含多个页面:训练自定义图片分类模型。
清理项目。
每个页面均假定您已经按照本教程中之前页面的说明操作。
本文档的其余部分假定您使用的是您在本教程的第一页中创建的 Cloud Shell 环境。如果原始的 Cloud Shell 会话不再处于打开状态,您可以执行以下操作来返回该环境:-
In the Google Cloud console, activate Cloud Shell.
-
在 Cloud Shell 会话中,运行以下命令:
cd hello-custom-sample
运行自定义训练流水线
本部分介绍如何使用您上传到 Cloud Storage 的训练软件包来运行 Vertex AI 自定义训练流水线。
在 Google Cloud 控制台的 Vertex AI 部分中,转到训练流水线页面。
点击
创建以打开训练新模型窗格。在选择训练方法步骤中,执行以下操作:
在数据集下拉列表中,选择无代管式数据集。此特定训练应用从 TensorFlow 数据集库(而非托管 Vertex AI 数据集)加载数据。
确保选择自定义训练(高级)。
点击继续。
在模型详细信息步骤的名称字段中,输入
hello_custom
。点击继续。在训练容器步骤中,为 Vertex AI 提供使用您上传到 Cloud Storage 的训练软件包所需的信息:
选择预构建的容器。
在模型框架下拉列表中,选择 TensorFlow。
在模型框架版本下拉列表中,选择 2.3。
在软件包位置字段中,输入
cloud-samples-data/ai-platform/hello-custom/hello-custom-sample-v1.tar.gz
。在 Python 模块字段中,输入
trainer.task
。trainer
是 tarball 压缩文件中的 Python 软件包的名称,task.py
包含您的训练代码。因此,trainer.task
是您希望 Vertex AI 运行的模块的名称。在模型输出目录字段中,点击浏览。在选择文件夹窗格中执行以下操作:
导航到您的 Cloud Storage 存储桶。
点击创建新文件夹
。将新文件夹命名为
output
。 然后,点击创建。点击选择。
确认该字段的值为
gs://BUCKET_NAME/output
,其中 BUCKET_NAME 是 Cloud Storage 存储桶的名称。此值会在
baseOutputDirectory
API 字段中传递给 Vertex AI,该字段设置训练应用在其运行时可以访问的几个环境变量。例如,当您将此字段设置为
gs://BUCKET_NAME/output
时,Vertex AI 会将AIP_MODEL_DIR
环境变量设置为gs://BUCKET_NAME/output/model
。在训练结束时,Vertex AI 会使用AIP_MODEL_DIR
目录中的任何工件来创建模型资源。详细了解此字段设置的环境变量。
点击继续。
在可选的超参数步骤中,确保清除启用超参数调节复选框。本教程不使用超参数调节。点击继续。
在计算和价格步骤中,为自定义训练作业分配资源:
在地区下拉列表中,选择 us-central1(爱荷华州)。
在机器类型下拉列表中,从标准部分选择 n1-standard-4。
请勿为本教程添加任何加速器或工作器池。点击继续。
在预测容器步骤中,为 Vertex AI 提供执行预测所需的信息:
选择预构建的容器。
在预构建容器设置部分,执行以下操作:
在模型框架下拉列表中,选择 TensorFlow。
在模型框架版本下拉列表中,选择 2.3。
在加速器类型下拉列表中,选择无。
确认模型目录字段的值为
gs://BUCKET_NAME/output
,其中 BUCKET_NAME 是 Cloud Storage 存储桶的名称。这与您在上一步中提供的模型输出目录值匹配。
将预测架构部分中的字段留空。
点击开始训练以启动自定义训练流水线。
您现在可以在训练页面上查看新的训练流水线(名为 hello_custom
)。您可能需要刷新页面。此训练流水线执行两个主要任务:
训练流水线会创建一个自定义作业资源(名为
hello_custom-custom-job
)。片刻之后,您可以在训练部分的自定义作业页面上查看此资源:自定义作业使用您在此部分中指定的计算资源运行训练应用。
自定义作业完成后,训练流水线会在 Cloud Storage 存储桶的
output/model/
目录中找到您的训练应用创建的工件。其使用这些工件来创建模型资源。
监控训练
如需查看训练日志,请执行以下操作:
在 Google Cloud 控制台的 Vertex AI 部分中,转到自定义作业页面。
如需查看您刚刚创建的
CustomJob
的详细信息,请点击列表中的hello_custom-custom-job
。在作业详情页面上,点击查看日志。
查看经过训练的模型
自定义训练流水线完成后,您可以在 Google Cloud 控制台的 Vertex AI 部分的模型页面上找到经过训练的模型。
该模型的名称为 hello_custom
。
后续步骤
按照本教程的下一页,处理来自经过训练的机器学习模型的预测。