支持的模型

下表显示了支持预配吞吐量的模型、每个生成式 AI 扩缩单元 (GSU) 的吞吐量,以及每个模型的消耗率

Google 模型

下表显示了支持预配吞吐量的 Google 模型的吞吐量、购买增量和消耗率。每秒吞吐量定义为每秒所有请求中的提示输入和生成的输出总数。

预配吞吐量仅支持您使用模型的 API 直接从项目中调用的模型,不支持由其他 Vertex AI 产品(包括 Vertex AI Agent 和 Vertex AI Search)调用的模型。

如需了解您的工作负载需要多少 token,请参阅 SDK 词元化器countTokens API

模型 每个 GSU 每秒的吞吐量 单位 最小 GSU 购买增量 消耗率
Gemini 2.0 Flash 3,360 令牌 1 1 个输入文本 token = 1 个 token
1 个输入图片 token = 1 个 token
1 个输入视频 token = 1 个 token
1 个输入音频 token = 7 个 token
1 个输出文本 token = 4 个 token
Gemini 1.5 Flash 小于或等于 128,000 个 token 上下文窗口
54,000

大于 128,000 个 token 上下文窗口
27,000
角色 1 小于或等于 128,000 个 token 上下文窗口
1 个输入字符 = 1 个字符
1 个输出字符 = 4 个字符
1 张图片 = 1,067 个字符
1 个视频/秒 = 1,067 个字符
1 个音频/秒 = 107 个字符

超过 128,000 个 token 上下文窗口
1 个输入字符 = 2 个字符
1 个输出字符 = 8 个字符
1 张图片 = 2,134 个字符
1 个视频/秒 = 2,134 个字符
1 个音频/秒 = 214 个字符
Gemini 1.5 Pro 800 角色 1 小于或等于 128,000 个 token 上下文窗口
1 个输入字符 = 1 个字符
1 个输出字符 = 3 个字符
1 张图片 = 1,052 个字符
1 个视频/秒 = 1,052 个字符
1 个音频/秒 = 100 个字符

大于 128,000 个 token 上下文窗口
1 个输入字符 = 2 个字符
1 个输出字符 = 6 个字符
1 张图片 = 2,104 个字符
1 个视频/秒 = 2,104 个字符
1 个音频/秒 = 200 个字符
Gemini 1.0 Pro 8000 角色 1 1 个输入字符 = 1 个字符
1 个输出字符 = 3 个字符
1 张图片 = 20,000 个字符
1 个视频/秒 = 16,000 个字符
Imagen 3 0.025 图片 1 只有输出图片会计入预配吞吐量配额。
Imagen 3 Fast 0.05 图片 1 只有输出图片会计入预配吞吐量配额。
Imagen 2 0.05 图片 1 只有输出图片会计入预配吞吐量配额。
Imagen 2 Edit 0.05 图片 1 只有输出图片会计入预配吞吐量配额。
MedLM medium 2,000 角色 1 1 个输入字符 = 1 个字符
1 个输出字符 = 2 个字符
MedLM large 200 角色 1 1 个输入字符 = 1 个字符
1 个输出字符 = 3 个字符
MedLM large 1.5 200 角色 1 1 个输入字符 = 1 个字符
1 个输出字符 = 3 个字符

如需详细了解受支持的位置,请参阅可用位置

您可以随时升级到新模型。如需了解模型可用性和停用日期,请参阅 Google 模型

预览功能

预配吞吐量的预览版功能需要获得访问权限批准。如需申请访问权限,请填写并提交预配吞吐量访问权限控制表单

预览版为 Google 模型提供了以下功能:

  • 预配吞吐量可应用于基本模型以及这些基本模型的监督式微调版本。

  • 监督式微调模型端点及其对应的基础模型会计入同一预配吞吐量配额。

    例如,为特定项目的 gemini-1.5-pro-002 购买的预配吞吐量会优先处理使用该项目中创建的监督式微调版本的 gemini-1.5-pro-002 发出的请求。使用适当的标头来控制流量行为。

  • 预配吞吐量可以按一周期限购买,而不是按月订阅,并且可以选择在下单后两周内的某个日期开始使用。

Google 旧版模型

请参阅支持预配吞吐量的旧版模型

合作伙伴模型

下表显示了支持预配吞吐量的合作伙伴模型的吞吐量、购买增量和消耗率。Claude 模型以每秒词元数为单位进行衡量,每秒词元数定义为所有请求中每秒的输入和输出词元的总数。

模型 每个 GSU 的吞吐量(词元数/秒) 最小 GSU 购买量 GSU 购买增量 消耗率
Anthropic 的 Claude 3.5 Sonnet v2 350 25 1 1 个输入词元 = 1 个词元
1 个输出词元 = 5 个词元
Anthropic 的 Claude 3.5 Haiku 2,000 10 1 1 个输入词元 = 1 个词元
1 个输出词元 = 5 个词元
Anthropic 的 Claude 3 Opus 70 35 1 1 个输入词元 = 1 个词元
1 个输出词元 = 5 个词元
Anthropic 的 Claude 3 Haiku 4,200 5 1 1 个输入词元 = 1 个词元
1 个输出词元 = 5 个词元
Anthropic 的 Claude 3.5 Sonnet 350 25 1 1 个输入词元 = 1 个词元
1 个输出词元 = 5 个词元

如需了解受支持的位置,请参阅 Anthropic Claude 区域可用性。如需为 Anthropic 模型订购预配吞吐量,请与您的Google Cloud 客户代表联系。

后续步骤