部署生成式 AI 模型

一些生成式 AI 模型（例如 Gemini）具有托管式 API，已准备好接受提示而无需部署。如需查看具有托管式 API 的模型列表，请参阅基础模型 API。

其他生成式 AI 模型必须先部署到端点，然后才能准备好接受提示。必须部署两种类型的生成模型：

调优后的模型（通过使用您自己的数据对支持的基础模型进行调优来创建）。
没有托管式 API 的生成模型。在 Model Garden 中，这些模型未标记为有 API 可用或 Vertex AI Studio，例如 Llama 2。

将模型部署到端点时，Vertex AI 会将计算资源和 URI 与模型相关联，以便它可以处理提示请求。

部署调优后的模型

调优后的模型会自动上传到 Vertex AI Model Registry 并部署到 Vertex AI 共享公共 endpoint。调优后的模型不会出现在 Model Garden 中，因为它们使用您的数据进行调优。如需了解详情，请参阅模型调优概览。

端点处于活跃状态后，便已准备好通过其 URI 接受提示请求。用于调优后的模型的 API 调用格式与用于进行调优的基础模型相同。例如，如果您的模型在 Gemini 上进行调整，则您的提示请求应遵循 Gemini API。

确保将提示请求发送到调优后的模型的端点，而不是托管式 API。调优后的模型的端点采用以下格式：

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

如需获取端点 ID，请参阅查看或管理端点。

如需详细了解如何设置提示请求的格式，请参阅 Model API 参考文档。

部署没有托管式 API 的生成模型

如需从 Model Garden 使用没有托管式 API 的模型，您必须先将模型上传到 Model Registry 并将其部署到端点，然后才能发送提示请求。这类似于在 Vertex AI 中上传和部署自定义训练模型以进行在线预测。

如需部署其中一个模型，请转到 Model Garden 并选择要部署的模型。

前往 Model Garden

每个模型卡片都会显示以下一个或多个部署选项：

部署按钮：Model Garden 中的大多数生成模型都有一个部署按钮，可引导您部署到 Vertex AI。如果您没有看到部署按钮，请前往下一个项目符号。

如需在 Vertex AI 上进行部署，您可以使用建议的设置或修改这些设置。您还可以设置高级部署设置，例如选择 Compute Engine 预留。

注意：某些模型还支持部署到 Google Kubernetes Engine，这是一种非托管式解决方案，可为您提供更多控制权。如需了解详情，请参阅在 GKE 中使用单个 GPU 提供模型。
打开笔记本按钮：此选项会打开 Jupyter 笔记本。每个模型卡片都会显示此选项。Jupyter 笔记本包含用于将模型上传到 Model Registry、将模型部署到端点以及发送提示请求的说明和示例代码。

部署完成并且端点处于活跃状态后，便已准备好通过其 URI 接受提示请求。API 的格式为 predict，请求正文中每个 instance 的格式取决于模型。如需了解详情，请参阅以下资源：

请确保您有足够的机器配额来部署模型。如需查看当前配额或申请增加配额，请在 Google Cloud 控制台中前往配额页面。

转到“配额”

然后，按配额名称 Custom Model Serving 进行过滤，以查看用于在线预测的配额。如需了解详情，请参阅查看和管理配额。

使用 Compute Engine 预留来确保所部署模型的容量

您可以将 Model Garden 模型部署到通过 Compute Engine 预留分配的虚拟机资源上。预留有助于确保在您的模型预测请求需要时有可用容量。如需了解详情，请参阅将预留与预测搭配使用。

查看或管理模型

对于调优后的模型，您可以在 Google Cloud 控制台的调参和蒸馏页面上查看模型及其调优作业。

转到“调参和蒸馏”

您还可以在 Model Registry 中查看和管理所有上传的模型。

前往 Model Registry

在 Model Registry 中，调优后的模型归类为“大型模型”，并且具有指定基础模型以及用于调优的流水线或调优作业的标签。

使用部署按钮部署的模型会指示 Model Garden 作为其 Source。请注意，当模型在 Model Garden 中更新时，Model Registry 中上传的模型不会更新。

如需了解详情，请参阅 Vertex AI Model Registry 简介。

查看或管理端点

如需查看和管理端点，请转到 Vertex AI 在线预测页面。默认情况下，端点的名称与模型的名称相同。

转到“在线预测”

如需了解详情，请参阅将模型部署到端点。

监控模型端点流量

如需了解如何监控模型端点流量，请参阅监控模型。

限制

经过调优的 Gemini 模型只能部署到共享公共端点。不支持部署到专用公共端点、Private Service Connect 端点和私有端点。

价格

对于调优后的模型，您需要按词元付费，费率与用于对模型调优的基础模型相同。端点不会产生任何费用，因为调优作为基础模型之上的小型适配器来实现。如需了解详情，请参阅 Vertex AI 上的生成式 AI 的价格。

对于没有托管式 API 的模型，您需要为端点使用的机器小时数付费，费率与 Vertex AI 在线预测相同。您无需按词元付费。如需了解详情，请参阅 Vertex AI 中的预测的价格。