可自行部署的 Llama 模型

Llama 是由 Meta 开发的一组开放模型，您可以在 Vertex AI 上微调和部署这些模型。Llama 提供预训练和指令调优的生成式文本及多模态模型。

Llama 4

Llama 4 模型系列是一组采用混合专家 (MoE) 架构的多模态模型。通过采用 MoE 架构，拥有超大参数量的模型可以针对任意给定的输入仅激活其参数的一个子集，从而实现更高效的推理。此外，Llama 4 采用了早期融合技术，该技术在初始处理阶段即整合文本与视觉信息。这一方法使 Llama 4 模型能更有效地掌握文本与图片之间复杂且微妙的关系。Vertex AI 上的 Model Garden 提供了两款 Llama 4 模型：Llama 4 Scout 和 Llama 4 Maverick。

如需了解详情，请参阅 Model Garden 中的 Llama 4 模型卡片，或查看“在 Vertex AI 上推出 Llama 4”的博文。

Llama 4 Maverick

Llama 4 Maverick 是 Llama 4 系列中规模最大、功能最强大的模型，在编码、推理和图片基准测试中均展现了业界领先的能力。该模型在 4000 亿总参数中拥有 170 亿活跃参数，并设有 128 个专家。Llama 4 Maverick 采用密集层与 MoE 层交替的结构，其中每个 token 都会激活一个共享专家外加 128 个路由专家中的一个。您可以将该模型作为支持 FP8 的预训练 (PT) 模型或指令调优 (IT) 模型来使用。该模型预训练了 200 种语言，并通过精细的训练后流水线，针对高质量的聊天交互进行了优化。

Llama 4 Maverick 是多模态模型，拥有 100 万 token 的上下文长度。它适用于高级图片标注、分析、精确的图片理解、视觉问答、创意文本生成、通用 AI 助理，以及需要顶级智能和图片理解能力的复杂聊天机器人。

Llama 4 Scout

Llama 4 Scout 凭借其 1000 万 token 的庞大上下文窗口，在其同规模级别中达到了顶尖的性能表现，在多项基准测试中超越了前几代 Llama 模型以及其他的开放专有模型。该模型在 1090 亿总参数中拥有 170 亿活跃参数，并设有 16 个专家，可作为预训练 (PT) 或指令调优 (IT) 模型使用。Llama 4 Scout 适用于长上下文中的检索任务，以及需要在海量信息基础上进行推理的任务，例如总结多份大型文档、分析海量用户交互日志以实现个性化，以及在大型代码库上进行推理。

Llama 3.3

Llama 3.3 是纯文本 70B 指令调优模型，用于纯文本应用时，相对于 Llama 3.1 70B 和 Llama 3.2 90B，可提供增强的性能。此外，对于某些应用，Llama 3.3 70B 的性能接近 Llama 3.1 405B。

如需了解详情，请参阅 Model Garden 中的 Llama 3.3 模型卡片。

Llama 3.2

借助 Llama 3.2，开发者可以构建和部署最新的生成式 AI 模型和应用，这些模型和应用使用 Llama 的功能来激发新的创新（例如图片推理）。Llama 3.2 还旨在让设备端应用更易于访问。以下列表突出显示了 Llama 3.2 功能：

提供更加私密和个性化的 AI 体验，并可在设备上处理较小的模型。
提供经过专门设计、旨在提升效率的模型，这些模型降低了延迟并改善了性能，因此适用于广泛的应用场景。
构建在 Llama Stack 之上，可让您更轻松地构建和部署应用。Llama Stack 是一个标准化界面，用于构建规范的工具链组件和代理应用。
支持视觉任务，并采用一种新的模型架构，将图片编码器表示法集成到语言模型。

1B 和 3B 模型是轻量级纯文本模型，支持设备端应用场景，例如多语言本地知识检索、总结和重写。

Llama 11B 和 90B 模型是具有图片推理功能的中小型多模态模型。例如，它们可以分析图表中的视觉数据，以提供更准确的回答，并从图片中提取详细信息以生成文本说明。

如需了解详情，请参阅 Model Garden 中的 Llama 3.2 模型卡片。

注意事项

使用 11B 和 90B 时，在发送纯文本提示时没有任何限制。不过，如果您在提示中加入图片，该图片必须位于提示的开头，并且您只能加入一张图片。例如，您不能先添加文本，然后再添加图片。

Llama 3.1

Llama 3.1 多语言的大语言模型 (LLM) 集合是一组经过预训练和指令调优的生成模型，大小为 8B、70B 和 405B（文本输入/文本输出）。Llama 3.1 指令调优的纯文本模型（8B、70B、405B）针对多语言对话应用场景进行了优化，在常见的行业基准中优于许多可用的开源和封闭式聊天模型。

如需了解详情，请参阅 Model Garden 中的 Llama 3.1 模型卡片。

Llama 3

Llama 3 指令调优的模型是一组针对对话应用场景优化的 LLM。在常见行业基准中，Llama 3 模型的表现优于许多可用的开源聊天模型。

如需了解详情，请参阅 Model Garden 中的 Llama 3 模型卡片。

Llama 2

Llama 2 LLM 是一组经过预训练和微调的生成文本模型，大小范围从 7B 到 70B 参数不等。

如需了解详情，请参阅 Model Garden 中的 Llama 2 模型卡片。

Code Llama

Meta 的 Code Llama 模型专为代码合成、理解和指令而设计。

如需了解详情，请参阅 Model Garden 中的 Code Llama 模型卡片。

Llama Guard 3

Llama Guard 3 基于 Llama Guard 2 的功能而构建，并添加了三个新类别：诽谤、选举和代码解释器滥用。此外，此模型支持多语言，其提示格式与 Llama 3 或更高版本的指令模型一致。

如需了解详情，请参阅 Model Garden 中的 Llama Guard 模型卡片。

资源

如需详细了解 Model Garden，请参阅在 Model Garden 中探索 AI 模型。

可自行部署的 Llama 模型 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。