下表显示了支持预配吞吐量的模型、每个生成式 AI 扩缩单元 (GSU) 的吞吐量,以及每个模型的消耗率。
Google 模型
下表显示了支持预配吞吐量的 Google 模型的吞吐量、购买增量和消耗率。每秒吞吐量定义为每秒所有请求中的提示输入和生成的输出总数。
预配吞吐量仅支持您使用模型的 API 直接从项目中调用的模型,不支持由其他 Vertex AI 产品(包括 Vertex AI Agent 和 Vertex AI Search)调用的模型。
如需了解您的工作负载需要多少 token,请参阅 SDK 词元化器或 countTokens API。
模型 | 每个 GSU 每秒的吞吐量 | 单位 | 最小 GSU 购买增量 | 消耗率 |
---|---|---|---|---|
Gemini 2.0 Flash | 3,360 | 令牌 | 1 | 1 个输入文本 token = 1 个 token 1 个输入图片 token = 1 个 token 1 个输入视频 token = 1 个 token 1 个输入音频 token = 7 个 token 1 个输出文本 token = 4 个 token |
Gemini 1.5 Flash | 小于或等于 128,000 个 token 上下文窗口: 54,000 大于 128,000 个 token 上下文窗口: 27,000 |
角色 | 1 | 小于或等于 128,000 个 token 上下文窗口: 1 个输入字符 = 1 个字符 1 个输出字符 = 4 个字符 1 张图片 = 1,067 个字符 1 个视频/秒 = 1,067 个字符 1 个音频/秒 = 107 个字符 超过 128,000 个 token 上下文窗口: 1 个输入字符 = 2 个字符 1 个输出字符 = 8 个字符 1 张图片 = 2,134 个字符 1 个视频/秒 = 2,134 个字符 1 个音频/秒 = 214 个字符 |
Gemini 1.5 Pro | 800 | 角色 | 1 | 小于或等于 128,000 个 token 上下文窗口: 1 个输入字符 = 1 个字符 1 个输出字符 = 3 个字符 1 张图片 = 1,052 个字符 1 个视频/秒 = 1,052 个字符 1 个音频/秒 = 100 个字符 大于 128,000 个 token 上下文窗口: 1 个输入字符 = 2 个字符 1 个输出字符 = 6 个字符 1 张图片 = 2,104 个字符 1 个视频/秒 = 2,104 个字符 1 个音频/秒 = 200 个字符 |
Gemini 1.0 Pro | 8000 | 角色 | 1 | 1 个输入字符 = 1 个字符 1 个输出字符 = 3 个字符 1 张图片 = 20,000 个字符 1 个视频/秒 = 16,000 个字符 |
Imagen 3 | 0.025 | 图片 | 1 | 只有输出图片会计入预配吞吐量配额。 |
Imagen 3 Fast | 0.05 | 图片 | 1 | 只有输出图片会计入预配吞吐量配额。 |
Imagen 2 | 0.05 | 图片 | 1 | 只有输出图片会计入预配吞吐量配额。 |
Imagen 2 Edit | 0.05 | 图片 | 1 | 只有输出图片会计入预配吞吐量配额。 |
MedLM medium | 2,000 | 角色 | 1 | 1 个输入字符 = 1 个字符 1 个输出字符 = 2 个字符 |
MedLM large | 200 | 角色 | 1 | 1 个输入字符 = 1 个字符 1 个输出字符 = 3 个字符 |
MedLM large 1.5 | 200 | 角色 | 1 | 1 个输入字符 = 1 个字符 1 个输出字符 = 3 个字符 |
如需详细了解受支持的位置,请参阅可用位置。
您可以随时升级到新模型。如需了解模型可用性和停用日期,请参阅 Google 模型。
预览功能
预配吞吐量的预览版功能需要获得访问权限批准。如需申请访问权限,请填写并提交预配吞吐量访问权限控制表单。
预览版为 Google 模型提供了以下功能:
预配吞吐量可应用于基本模型以及这些基本模型的监督式微调版本。
监督式微调模型端点及其对应的基础模型会计入同一预配吞吐量配额。
例如,为特定项目的
gemini-1.5-pro-002
购买的预配吞吐量会优先处理使用该项目中创建的监督式微调版本的gemini-1.5-pro-002
发出的请求。使用适当的标头来控制流量行为。预配吞吐量可以按一周期限购买,而不是按月订阅,并且可以选择在下单后两周内的某个日期开始使用。
Google 旧版模型
请参阅支持预配吞吐量的旧版模型。
合作伙伴模型
下表显示了支持预配吞吐量的合作伙伴模型的吞吐量、购买增量和消耗率。Claude 模型以每秒词元数为单位进行衡量,每秒词元数定义为所有请求中每秒的输入和输出词元的总数。
模型 | 每个 GSU 的吞吐量(词元数/秒) | 最小 GSU 购买量 | GSU 购买增量 | 消耗率 |
---|---|---|---|---|
Anthropic 的 Claude 3.5 Sonnet v2 | 350 | 25 | 1 | 1 个输入词元 = 1 个词元 1 个输出词元 = 5 个词元 |
Anthropic 的 Claude 3.5 Haiku | 2,000 | 10 | 1 | 1 个输入词元 = 1 个词元 1 个输出词元 = 5 个词元 |
Anthropic 的 Claude 3 Opus | 70 | 35 | 1 | 1 个输入词元 = 1 个词元 1 个输出词元 = 5 个词元 |
Anthropic 的 Claude 3 Haiku | 4,200 | 5 | 1 | 1 个输入词元 = 1 个词元 1 个输出词元 = 5 个词元 |
Anthropic 的 Claude 3.5 Sonnet | 350 | 25 | 1 | 1 个输入词元 = 1 个词元 1 个输出词元 = 5 个词元 |
如需了解受支持的位置,请参阅 Anthropic Claude 区域可用性。如需为 Anthropic 模型订购预配吞吐量,请与您的Google Cloud 客户代表联系。