本页面介绍如何将生成式 AI 模型部署到端点以进行在线推理。
查看 Model Garden
如果模型位于 Model Garden 中,您可以通过点击部署(适用于某些模型)或打开笔记本进行部署。
否则,您可以执行以下任一操作:
如果您的模型与 Model Garden 中的模型类似,则您可以直接重复使用其中一个 Model Garden 容器。
在将模型导入 Vertex AI Model Registry 之前,请构建您自己的且符合自定义容器推理要求的自定义容器。导入后,它将成为可以部署到端点的
model资源。您可以使用我们用于构建 Model Garden 容器的 Dockerfile 和脚本作为参考或起点来构建您自己的自定义容器。
使用 NVIDIA NIM 提供推理服务
NVIDIA 推断微服务 (NIM) 是预训练和优化的 AI 模型,已打包为微服务。它们旨在简化高性能、可用于生产环境的 AI 应用的部署。
NVIDIA NIM 可与 Artifact Registry 和 Vertex AI 搭配使用,以部署用于在线推理的生成式 AI 模型。
自定义容器的设置
本部分介绍在导入生成式 AI 模型时,您可能需要指定的模型的 containerSpec 中的字段。
您可以使用 Vertex AI REST API 或 gcloud ai models upload 命令指定这些字段。如需了解详情,请参阅与容器相关的 API 字段。
sharedMemorySizeMb一些生成式 AI 模型需要更多共享内存。共享内存是一种进程间通信 (IPC) 机制,允许多个进程访问和操作一个通用内存块。默认共享内存大小为 64 MB。
某些模型服务器(例如 vLLM 或 Nvidia Triton)在模型推断期间使用共享内存来缓存内部数据。如果没有足够的共享内存,某些模型服务器将无法为生成模型提供推理。所需的共享内存量(如果有)是容器和模型的实现细节。如需了解相关准则,请参阅模型服务器文档。
此外,由于共享内存可用于跨 GPU 通信,因此如果模型容器需要跨 GPU 通信,则使用更多共享内存可以提高没有 NVLink 功能(例如 L4)的加速器的性能。
如需了解如何为共享内存指定自定义值,请参阅与容器相关的 API 字段。
startupProbe启动探测是一项可选探测,用于检测容器何时启动。此探测用于将运行状况探测和活跃性检查延迟到容器启动之后,这有助于防止慢启动容器过早关停。
如需了解详情,请参阅健康检查。
healthProbe健康探测检查容器是否已准备好接受流量。如果未提供健康探测,Vertex AI 将使用默认健康检查,该检查向容器的端口发出 HTTP 请求,并从模型服务器查找
200 OK响应。如果您的模型服务器在模型完全加载之前响应
200 OK(这是可能的,尤其是对于大型模型),则健康检查将过早成功,Vertex AI 会在容器准备就绪之前将流量路由到容器。在这些情况下,请指定仅在模型完全加载并准备好接受流量后才成功的自定义健康探测。
如需了解详情,请参阅健康检查。
限制
在部署生成式 AI 模型时,请考虑以下限制:
- 生成式 AI 模型只能部署到单台机器。尚不支持多主机部署。
- 对于超出最大支持 vRAM 的超大模型(例如 Llama 3.1 405B),我们建议对其进行量化以适应。