全代管的 Llama 模型


Vertex AI 上的 Llama 模型提供全代管無伺服器模型,可做為 API 使用。如要在 Vertex AI 上使用 Llama 模型,請直接將要求傳送至 Vertex AI API 端點。由於 Llama 模型使用代管 API,因此不需要佈建或管理基礎架構。

您可以串流回應,減少使用者感受到的延遲時間。串流回應會使用伺服器推送事件 (SSE),逐步串流回應。

可用的 Llama 模型

您可以在 Vertex AI 中使用 Meta 提供的下列 Llama 模型。如要存取 Llama 模型,請前往 Model Garden 的模型資訊卡。

預覽中的模型也提供自行部署選項。如需可供正式環境使用的服務,請自行部署 Llama 模型

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E 是最大且最強大的 Llama 4 模型,提供程式設計、推論和圖像功能。這款模型採用混合專家 (MoE) 架構,在 4,000 億個總參數和 128 位專家中,有 170 億個現用參數。Llama 4 Maverick 17B-128E 使用交替的密集層和 MoE 層,每個權杖會啟動共用專家,以及 128 位路由專家中的其中一位。模型已預先訓練 200 種語言,並透過精細的後訓練管道進行最佳化,可提供高品質的對話互動。

Llama 4 Maverick 17B-128E 屬於多模態模型,適合用於進階圖像說明、分析、精確圖像理解、視覺問答、創意文字生成、通用 AI 助理,以及需要頂尖智慧和圖像理解能力的高階聊天機器人。

注意事項

  • 每個要求最多可包含三張圖片。
  • 與先前版本不同,MaaS 端點不會使用 Llama Guard。如要使用 Llama Guard,請從 Model Garden 部署 Llama Guard,然後將提示和回覆傳送至該端點。不過,與 Llama 4 相比,LlamaGuard 的背景資訊較少 (128,000),且只能處理提示開頭的單一圖片要求。
  • 不支援批次預測。

前往 Llama 4 模型資訊卡

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E 在同級模型中表現優異,在多項基準測試中,都優於先前的 Llama 版本和其他開放式與專有模型。這個模型採用 MoE 架構,在 1,090 億個參數中,有 170 億個現用參數,並有 16 位專家。

Llama 4 Scout 17B-16E 適合用於長篇脈絡資料的擷取作業,以及需要對大量資訊進行推理的作業,例如總結多份大型文件、分析大量使用者互動記錄以提供個人化服務,以及對大型程式碼集進行推理。

前往 Llama 4 模型資訊卡

注意事項

  • 每個要求最多可包含三張圖片。
  • 與先前版本不同,MaaS 端點不會使用 Llama Guard。如要使用 Llama Guard,請從 Model Garden 部署 Llama Guard,然後將提示和回覆傳送至該端點。不過,與 Llama 4 相比,LlamaGuard 的背景資訊較少 (128,000),且只能處理提示開頭的單一圖片要求。
  • 不支援批次預測。

前往 Llama 4 模型資訊卡

Llama 3.3

Llama 3.3 是純文字 70B 指令微調模型,相較於 Llama 3.1 70B 和 Llama 3.2 90B,用於純文字應用程式時效能更佳。

前往 Llama 3.3 70B 模型資訊卡

在預先發布期間,系統會根據模型用量向您收費 (即付即用)。如需即付即用定價,請參閱 Vertex AI 定價頁面的 Llama 模型定價。

Llama 3.2

開發人員可使用 Llama 3.2 建構及部署最新的生成式 AI 模型和應用程式,並運用 Llama 的最新功能,例如圖像推理。Llama 3.2 的設計宗旨是讓裝置端應用程式更容易存取。

前往 Llama 3.2 90B 模型資訊卡

預先發布期間不會產生費用。如需可投入生產的服務,請使用自行代管的 Llama 模型

注意事項

使用 llama-3.2-90b-vision-instruct-maas 時,傳送純文字提示沒有限制。不過,如果提示中包含圖片,圖片必須位於提示開頭,且只能包含一張圖片。舉例來說,您無法同時加入文字和圖片。

Llama 3.1

Llama 3.1 是一種自動迴歸語言模型,採用經過最佳化的 Transformer 架構。微調版本採用監督式微調 (SFT) 和人類回饋增強學習 (RLHF),以符合人類對實用性和安全性的偏好。

Llama 3.1 405B 現已正式發布。系統會根據模型用量收費 (隨用隨付)。如需隨用隨付定價,請參閱 Vertex AI 定價頁面的 Llama 模型定價。

其他 Llama 3.1 模型為預先發布版。預先發布版模型不會產生任何費用。如需適用於正式環境的服務,請使用自行代管的 Llama 模型

前往 Llama 3.1 模型資訊卡

後續步驟

瞭解如何使用 Llama 模型