Vertex AI 支持一组精选的开放模型作为受管理的模型。这些开放模型可与 Vertex AI 搭配,作为模型即服务 (MaaS) 使用,并作为托管式 API 提供。使用受管理的开放模型时,您可以继续向 Vertex AI 端点发送请求。受管理的开放模型是无服务器服务,因此您无需预配或管理基础设施。
您可以使用 Model Garden 发现受管理的开放模型,还可以使用 Model Garden 部署模型。如需了解详情,请参阅在 Model Garden 中探索 AI 模型。
开放模型
以下开放模型在 Vertex AI Model Garden 上以托管式 API 的形式(MaaS)提供:
模型名称 | 模态 | 说明 | 快速入门 |
---|---|---|---|
gpt-oss 120B | 语言 | 一个 1,200 亿参数的模型,在推理任务方面表现出色。 | 模型卡片 |
gpt-oss 20B | 语言 | 一款 200 亿参数模型,经过优化,可在消费类硬件和边缘硬件上高效部署。 | 模型卡片 |
Qwen3-Next-80B 的思考过程 | 语言、代码 | Qwen3-Next 系列模型中的一款,专门用于解决复杂问题和进行深度推理。 | 模型卡片 |
Qwen3-Next-80B Instruct | 语言、代码 | Qwen3-Next 系列模型中的一种,专门用于遵循特定指令。 | 模型卡片 |
Qwen3 Coder | 语言、代码 | 一款为高级软件开发任务而开发的开放权重模型。 | 模型卡片 |
Qwen3 235B | 语言 | 一款开放权重模型,具有“混合思维”能力,可在有条理的推理和快速对话之间切换。 | 模型卡片 |
DeepSeek-V3.1 | 语言 | DeepSeek 的混合模型,同时支持思考模式和非思考模式。 | 模型卡片 |
DeepSeek R1 (0528) | 语言 | DeepSeek 最新版本的 DeepSeek R1 模型。 | 模型卡片 |
Llama 4 Maverick 17B-128E | 语言、视觉 | 最大、最强大的 Llama 4 模型,具有编码、推理和图像功能。Llama 4 Maverick 17B-128E 是一种使用混合专家 (MoE) 架构和早期融合技术的多模态模型。 | 模型卡片 |
Llama 4 Scout 17B-16E | 语言、视觉 | Llama 4 Scout 17B-16E 在同类模型中取得了出色的结果,在多项基准测试中超越了之前的 Llama 模型以及其他开放模型和专有模型。Llama 4 Scout 17B-16E 是一种使用混合专家 (MoE) 架构和早期融合技术的多模态模型。 | 模型卡片 |
Llama 3.3 | 语言 | Llama 3.3 是纯文本 70B 指令调优模型,用于纯文本应用时,相对于 Llama 3.1 70B 和 Llama 3.2 90B,可提供增强的性能。此外,对于某些应用,Llama 3.3 70B 的性能接近 Llama 3.1 405B。 | 模型卡片 |
Llama 3.2(预览版) | 语言、视觉 | 中型 90B 多模态模型,可支持图片推理,例如图表和图形分析以及图片标注。 | 模型卡片 |
Llama 3.1 | 语言 |
一组针对多语言对话应用场景优化的多语言 LLM,在常见的行业基准中优于许多可用的开源和封闭式聊天模型。 Llama 3.1 405B 已正式发布 (GA)。 Llama 3.1 8B 和 Llama 3.1 70B 目前处于预览版阶段。 |
模型卡片 |
以下开放嵌入模型在 Vertex AI Model Garden 上以托管式 API 的形式(模型即服务 [MaaS])提供:
模型名称 | 说明 | 输出尺寸 | 最大序列长度 | 支持的文本语言 | 快速入门 |
---|---|---|---|---|---|
multilingual-e5-small | E5 系列文本嵌入模型中的一员。小变体包含 12 层。 | 最高 384 | 512 个词元 | 支持的语言 | 模型卡片 |
multilingual-e5-large | E5 系列文本嵌入模型中的一员。大型变体包含 24 层。 | 最多 1024 个 | 512 个词元 | 支持的语言 | 模型卡片 |
区域端点和全球端点
对于区域级端点,请求会从您指定的区域处理。如果您有数据驻留要求,或者模型不支持全球端点,请使用区域端点。
使用全球端点时,Google 可以使用您所用模型支持的任何区域来处理和响应您的请求。在某些情况下,这可能会导致延迟时间更长。全球端点有助于提高整体可用性并减少错误。
使用全球端点时,区域端点在价格上没有差异。不过,全球端点的配额和支持的模型功能可能与区域端点不同。如需了解详情,请参阅相关的第三方模型页面。
指定全球端点
如需使用全球端点,请将区域设置为 global
。
例如,curl 命令的请求网址采用以下格式:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
对于 Vertex AI SDK,区域端点是默认端点。将区域设置为 GLOBAL
以使用全球端点。
限制全球 API 端点用量
为了帮助强制使用区域端点,请使用 constraints/gcp.restrictEndpointUsage
组织政策限制条件来阻止对全球 API 端点的请求。如需了解详情,请参阅限制端点用量。
向用户授予对开放模型的访问权限
如需启用开放模型并发出提示请求, Google Cloud管理员必须设置所需的权限,并验证组织政策是否允许使用所需的 API。
设置使用开放模型所需的权限
如需使用开放模型,您需要拥有以下角色和权限:
您必须具有 Consumer Procurement Entitlement Manager Identity and Access Management (IAM) 角色。任何被授予此角色的用户都可以在 Model Garden 中启用开放模型。
您必须拥有
aiplatform.endpoints.predict
权限。此权限包含在 Vertex AI User IAM 角色中。如需了解详情,请参阅 Vertex AI User 和访问权限控制。
控制台
gcloud
-
In the Google Cloud console, activate Cloud Shell.
授予在 Model Garden 中启用开放模型所需的 Consumer Procurement Entitlement Manager 角色
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
授予包含发出提示请求所需的
aiplatform.endpoints.predict
权限的 Vertex AI User 角色:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
将
PRINCIPAL
替换为主账号的标识符。标识符的格式为user|group|serviceAccount:email
或domain:domain
,例如user:cloudysanfrancisco@gmail.com
、group:admins@example.com
、serviceAccount:test123@example.domain.com
或domain:example.domain.com
。输出是一个政策绑定列表,其中包含以下内容:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
如需了解详情,请参阅授予单个角色和
gcloud projects add-iam-policy-binding
。
设置开放模型访问权限的组织政策
如需启用开放模型,您的组织政策必须允许以下 API:Cloud Commerce Consumer Procurement API - cloudcommerceconsumerprocurement.googleapis.com
如果您的组织将组织政策设置为限制服务的使用,则组织管理员必须通过设置组织政策来验证是否允许 cloudcommerceconsumerprocurement.googleapis.com
。
此外,如果您有组织政策限制 Model Garden 中的模型使用,则该政策必须允许访问开放模型。如需了解详情,请参阅控制模型访问权限。
开放模型监管合规性
当使用 Vertex AI 将开放模型作为托管式 API 使用时,Vertex AI 上的生成式 AI 的认证仍然适用。如果您需要了解模型本身的详细信息,可以在相应的模型卡片中找到更多信息,也可以联系相应的模型发布者。
对于 Vertex AI 上的开放模型,您的数据会以静态形式存储在所选区域或多区域内,但数据处理的区域化程度可能会有所不同。如需详细了解开放模型的数据处理承诺,请参阅开放模型的数据驻留。
使用 Vertex AI API(包括开放模型)时,客户提示和模型回答不会与第三方共享。Google 仅按照客户的指示处理客户数据,详见我们的《云端数据处理附录》。