本页面介绍如何使用 Google Cloud 控制台将模型部署到端点。
简介
您必须先将模型部署到端点,然后才能使用该模型执行在线预测。部署模型会将物理资源与模型相关联,以便以低延迟方式提供在线预测。未部署的模型可以执行批量预测,批量预测对低延时的要求没有那么高。
您可以将多个模型部署到一个端点,也可以将一个模型部署到多个端点。如需详细了解部署模型的选项和使用场景,请参阅部署模型简介。
您无法将视频模型部署到端点。视频模型不执行在线预测。
有关使用 Vertex AI API 部署模型方面的帮助,请参阅使用 Vertex AI API 部署模型。
部署模型
在 Google Cloud 控制台的 Vertex AI 部分中,前往模型页面。
点击要部署的模型名称以打开其详情页面。
选择部署和测试标签页。
如果模型已部署到任何端点,部署模型 (Deploy your model) 部分中会列出这些端点。
点击部署到端点。
如需将模型部署到新的端点,请选择
创建新端点并为新端点提供名称。如需将模型部署到现有端点,请选择 添加到现有端点,然后从下拉列表中选择端点。您可以将多个模型添加到一个端点,也可以将一个模型添加到多个端点。了解详情。
如果您将模型部署到已部署有一个或多个模型的现有端点,则必须为要部署的模型和已部署模型更新流量拆分,以使所有百分比的总和为 100%。
请选择您的模型类型,以完成模型设置的选择:
AutoML Image
如果您要将模型部署到新端点,请接受 100 的流量拆分值。否则,请为端点上所有模型调整流量拆分值,使它们的总和为 100。
输入要为模型提供的计算节点数量。
这是此模型始终可用的节点数。即使没有预测流量,您也要为节点付费。请参阅价格页面。
了解如何更改预测日志记录的默认设置。
仅限分类模型(可选):在可解释性选项部分,选择 Vertex Explainable AI。接受现有的可视化设置或选择新值,然后点击完成。
为此模型启用特征归因以启用部署配置有 Vertex Explainable AI 的 AutoML 图片分类模型并使用可解释性进行预测均为可选操作。在部署时启用 Vertex Explainable AI 会产生基于已部署节点数量和部署时间的额外费用。如需了解详情,请参阅价格。
为模型点击完成,当所有流量分配百分比均正确无误时,点击继续。
此时会显示将部署模型的区域。这必须是创建模型的区域。
点击部署,将模型部署到端点。
AutoML Tabular
如果您要将模型部署到新端点,请接受 100 的流量拆分值。否则,请为端点上所有模型调整流量拆分值,使它们的总和为 100。
输入要为模型提供的计算节点数下限。
这是此模型始终可用的节点数。您需要为使用的节点(无论是处理预测负载还是备用(最少)节点)付费,即使没有预测流量也是如此。请参阅价格页面。
选择机器类型。
较大的机器资源将提高预测性能和增加费用。
了解如何更改预测日志记录的默认设置。
为模型点击完成,当所有流量分配百分比均正确无误时,点击继续。
此时会显示将部署模型的区域。这必须是创建模型的区域。
点击部署,将模型部署到端点。
AutoML Text
如果您要将模型部署到新端点,请接受 100 的流量拆分值。否则,请为端点上所有模型调整流量拆分值,使它们的总和为 100。
为模型点击完成,当所有流量分配百分比均正确无误时,点击继续。
此时会显示将部署模型的区域。这必须是创建模型的区域。
点击部署,将模型部署到端点。
AutoML Video
您无法将 AutoML 视频模型部署到端点。
自定义训练
如果您要将模型部署到新端点,请接受 100 的流量拆分值。否则,请为端点上所有模型调整流量拆分值,使它们的总和为 100。
输入要为模型提供的计算节点数下限。
这是此模型始终可用的节点数。
您需要为使用的节点(无论是处理预测负载还是备用(最少)节点)付费,即使没有预测流量也是如此。请参阅价格页面。
如需使用自动扩缩功能,请输入希望 Vertex AI 扩展到的计算节点数上限。
在需要处理预测流量时计算节点的数量可能会增加,但绝不会超出节点数上限。
选择机器类型。
较大的机器资源将提高预测性能和增加费用。比较可用的机器类型。
选择加速器类型和加速器数量。
此选项仅在您在导入或创建模型时启用加速器使用时显示。
对于加速器数量,请参阅 GPU 表,查看每个 CPU 机器类型的有效 GPU 数量。 加速器数量指的是每个节点的加速器数量,而不是部署中的加速器总数。
如果要使用自定义服务帐号进行部署,请在服务帐号下拉框中选择服务帐号。
了解如何更改预测日志记录的默认设置。
为模型点击完成,当所有流量分配百分比均正确无误时,点击继续。
此时会显示将部署模型的区域。这必须是创建模型的区域。
点击部署,将模型部署到端点。
后续步骤
- 使用 Cloud 控制台通过 AutoML 模型请求在线预测。
视频不支持在线预测。 - 向自定义训练的模型请求在线预测。
- 使用 Cloud 控制台请求批量预测。