全托管式 Llama 模型

Vertex AI 上的 Llama 模型以 API 形式提供全托管式无服务器模型。如需使用 Vertex AI 上的 Llama 模型，请直接向 Vertex AI API 端点发送请求。由于 Llama 模型使用托管式 API，因此无需预配或管理基础设施。

您可以流式传输回答，以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。

可用的 Llama 模型

Meta 提供了以下 Llama 模型，可在 Vertex AI 中使用。如需访问 Llama 模型，请前往其 Model Garden 模型卡片。

处于预览版阶段的模型也提供自行部署选项。如果您需要可用于生产用途的服务，请使用自行部署的 Llama 模型。

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E 是最大、功能最强大的 Llama 4 模型，可提供编码、推理和图片功能。它采用混合专家 (MoE) 架构，在 4,000 亿个总参数中，有 170 亿个有效参数和 128 个专家。Llama 4 Maverick 17B-128E 使用交替的密集层和 MoE 层，其中每个 token 都会激活一个共享专家和 128 个路由专家之一。该模型预训练了 200 种语言，并通过精细的训练后流水线进行了优化，可实现高质量的聊天互动。

Llama 4 Maverick 17B-128E 是一个多模态模型，适用于高级图片标注、分析、精确的图片理解、视觉问答、创意文本生成、通用 AI 助理，以及需要顶级智能和图片理解能力的复杂聊天机器人。

注意事项

每个请求最多可包含三张图片。
与之前的版本不同，MaaS 端点不使用 Llama Guard。如需使用 Llama Guard，请从 Model Garden 部署 Llama Guard，然后将提示和回答发送到该端点。不过，与 Llama 4 相比，Llama Guard 的上下文更有限（128,000），并且只能处理提示开头包含单张图片的请求。
不支持批量预测。

前往 Llama 4 模型卡片

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E 在同类模型中取得了出色的结果，在多项基准测试中均优于之前的 Llama 模型以及其他开放模型和专有模型。它采用 MoE 架构，在 1,090 亿个总参数中包含 170 亿个有效参数和 16 个专家。

Llama 4 Scout 17B-16E 适用于长上下文中的检索任务，以及需要对大量信息进行推理的任务，例如总结多个大型文档、分析大量用户互动日志以实现个性化，以及在大型代码库中进行推理。

前往 Llama 4 模型卡片

注意事项

每个请求最多可包含三张图片。
与之前的版本不同，MaaS 端点不使用 Llama Guard。如需使用 Llama Guard，请从 Model Garden 部署 Llama Guard，然后将提示和回答发送到该端点。不过，与 Llama 4 相比，Llama Guard 的上下文更有限（128,000），并且只能处理提示开头包含单张图片的请求。
不支持批量预测。

前往 Llama 4 模型卡片