Vertex AI 中构建和部署 AI 模型的费用
所列价格以美元 (USD) 为单位。 如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。
只有返回 200 响应代码的请求才会向您收费。对于返回任何其他响应代码(例如 4xx 和 5xx 代码)的请求,不会收取输入或输出费用。
本页面介绍了 Vertex AI 上的生成式 AI 的价格。如需了解所有其他 Vertex AI 价格(包括机器学习平台和 MLOps 服务),请参阅 Vertex AI 价格页面。
Google 模型
Gemini 3
| 型号 | 类型 | 价格(/100 万个 token)<= 20 万个输入 token | 价格(/100 万个 token)> 20 万个输入 token | 价格(/100 万个 token)<= 20 万个缓存输入 token | 价格(/100 万个 token)> 20 万个缓存输入 token | 价格(/100 万个词元)<= 20 万个输入词元(使用批处理 API) | 价格(/100 万个词元)> 20 万个输入词元(使用批量 API) |
|---|---|---|---|---|---|---|---|
| Gemini 3 Pro 预览版 | |||||||
| 输入(文本、图片、视频、音频) | 2 美元 | $4 | $0.2 | $0.4 | $1 | 2 美元 | |
| 文本输出(回答和推理) | $12 | $18 | 不适用 | 不适用 | $6 | $9 | |
| 图片输出** | $120 | 不适用 | 不适用 | 不适用 | $60 | 不适用 | |
| Gemini 3 Flash 预览版 | |||||||
| 输入(文本、图片、视频) | $0.5 | $0.5 | $0.05 | $0.05 | $0.25 | $0.25 | |
| 输入(音频) | $1 | $1 | $0.1 | $0.1 | $0.5 | $0.5 | |
| 文本输出(回答和推理) | $3 | $3 | 不适用 | 不适用 | $1.5 | $1.5 | |
| 依托 Google 搜索进行接地和依托 Enterprise Web Search 进行接地 |
包括每月 5,000 次免费搜索查询,这些查询在所有 Gemini 3 模型之间汇总计算。 超出这些限制的搜索查询将按 1,000 次搜索查询 14 美元计费。客户向 Gemini 提交的请求可能会导致向 Google 搜索(或 Enterprise 版的 Web Grounding)发出一个或多个查询。您需要为执行的每个单独搜索查询付费。此功能将于 2026 年 1 月 5 日开始收费。 依托 Google 搜索进行接地或依托 Web 进行接地(企业版)提供的输入词元不收费。 如果您每天需要超过 100 万条接地提示,请与您的客户支持团队联系。 |
||||||
| 依托 Google 地图进行接地 |
包括每月 5,000 次免费搜索查询,这些查询在所有 Gemini 3 模型之间汇总计算。 超出这些限制的 Maps 查询按 $14/1,000 次查询计费。客户向 Gemini 提交的请求可能会导致向 Google 地图发出一个或多个查询。您需要为执行的每个查询付费。结算将于 2026 年 1 月 5 日开始 Google 地图提供的输入词元不收费。 |
||||||
| 基于数据进行接地 | 每 1,000 个提示 $2.50。 | ||||||
* 如果查询输入上下文超过 20 万个词元,则所有词元(输入和输出)均按长上下文费率计费。
** 1K (1024x1024) 和 2K (2048x2048) 输出图片消耗 1, 120 个图片输出词元,相当于每张生成图片 $0.134。一张 4K (4096x4096) 图片消耗 2, 000 个图片输出 token,相当于每张生成的图片花费 0.24 美元。
Gemini 2.5
| 型号 | 类型 | 价格(/100 万个 token)<= 20 万个输入 token | 价格(/100 万个 token)> 20 万个输入 token | 价格(/100 万个 token)<= 20 万个缓存输入 token | 价格(/100 万个 token)> 20 万个缓存输入 token | 价格(/100 万个词元)<= 20 万个输入词元(使用批处理 API) | 价格(/100 万个词元)> 20 万个输入词元(使用批量 API) |
|---|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | |||||||
| 输入(文本、图片、视频、音频) | $1.25 | $2.5 | $0.125 | $0.250 | $0.625 | $1.25 | |
| 文本输出(回答和推理) | $10 | $15 | 不适用 | 不适用 | $5 | 7.5 | |
| Gemini 2.5 Pro 计算机使用 - 预览版 |
|||||||
| 输入(文本、图片、视频、音频) | $1.25 | $2.5 | 不适用 | 不适用 | 不适用 | 不适用 | |
| 文本输出(回答和推理) | $10.00 | $15.00 | 不适用 | 不适用 | 不适用 | 不适用 | |
Gemini 2.5 Flash |
|||||||
| 输入(文本、图片、视频) | $0.30 | $0.30 | $0.030 | $0.030 | $0.15 | $0.15 | |
| 音频输入 | $1 | $1 | $0.100 | $0.100 | $0.5 | $0.5 | |
| 文本输出(回答和推理) | $2.50 | $2.50 | 不适用 | 不适用 | $1.25 | $1.25 | |
| 图片输出*** | $30 | $30 | 不适用 | 不适用 | $15 | $15 | |
Gemini 2.5 Flash Live API |
|||||||
| 100 万个输入文本 token | $0.5 | $0.5 | 不适用 | 不适用 | 不适用 | 不适用 | |
| 100 万个输入音频 token | $3 | $3 | 不适用 | 不适用 | 不适用 | 不适用 | |
| 100 万个输入视频/图片 token | $3 | $3 | 不适用 | 不适用 | 不适用 | 不适用 | |
| 100 万个输出文本 token | 2 美元 | 2 美元 | 不适用 | 不适用 | 不适用 | 不适用 | |
| 100 万个输出音频 token | $12 | $12 | 不适用 | 不适用 | 不适用 | 不适用 | |
Gemini 2.5 Flash Lite |
|||||||
| 输入(文本、图片、视频) | $0.1 | $0.1 | $0.010 | $0.010 | $0.05 | $0.05 | |
| 音频输入 | $0.3 | $0.3 | $0.030 | $0.030 | $0.15 | $0.15 | |
| 文本输出(回答和推理) | $0.4 | $0.4 | 不适用 | 不适用 | $0.2 | $0.2 | |
使用 Google 搜索建立依据 |
Gemini 2.0 Flash、2.5 Flash 和 2.5 Flash-Lite 每天可免费使用 1,500 个接地提示。Gemini 2.5 Pro 每天提供 10,000 个接地提示,无需额外付费。 超出这些限制的接地提示按 35 美元/1,000 个接地提示计费。 接地提示是指提交给 Gemini 的请求,该请求会对 Google 搜索**执行一项或多项查询。即使向 Google 搜索发送了多个搜索查询,也只会针对接地提示收取一次费用。 如果您每天需要超过 100 万条接地提示,请与您的客户支持团队联系。 |
||||||
适用于企业的 Web 接地 |
每 1,000 个接地提示 45 美元。接地提示是指提交给 Gemini 的请求,该请求会对企业版 Web 接地功能发出一个或多个查询**。即使向 Google 搜索发送了多个搜索查询,也只会针对接地提示收取一次费用。 如果您每天需要超过 100 万条接地提示,请与您的客户支持团队联系。 |
||||||
| 基于数据进行接地 | 每 1,000 个请求 $2.5。 | ||||||
| 依托 Google 地图进行接地 | 每 1,000 条接地提示 25 美元。 接地提示是指发送给 Gemini 的请求,该请求至少向 Google 地图发出 1 次查询。 |
||||||
* 如果查询输入上下文超过 20 万个词元,则所有词元(输入和输出)均按长上下文费率计费。
** 仅当提示成功返回网络结果(即结果中包含至少一个来自网络的接地支持网址)时,才会针对使用 Google 搜索接地和企业版网络接地功能收费。Gemini 模型使用费另行收取。
*** 一张 1024x1024 的图片会消耗 1290 个词元。每张图片的词元数因图片分辨率而异。如需详细了解如何计算词元,请参阅我们的文档。
****“计算机使用”结算使用 Gemini 2.5 Pro SKU,如需拆分“计算机使用”费用,请应用结算标记。如需了解详情,请点击此处。
- LiveAPI 会话的上下文窗口结算方式说明:系统会根据会话上下文窗口中存在的所有词元按轮次向您收费。会话上下文窗口包括新词元(当前轮次)+ 前几轮次中累积的所有词元。这意味着,系统会重新处理过去轮次的词元,并在每个新轮次中将其纳入考虑范围,直到达到您配置的上下文窗口大小。一个“轮次”是指用户的一次输入和模型的回答。
- 主动音频模式:启用后,LiveAPI 在监听时会收取输入词元费用。只有在 API 响应时,才会对输出词元收费。
- 启用音频转写功能后,系统会按文本词元输出费率对转写生成的所有文本词元收费。
Gemini 2.0
Gemini 2.0 按词元计费。如需在发送请求之前计算请求中的输入 token 数,可以使用 SDK 词元化器或 countTokens API。 如果您的请求因 400 或 500 错误而失败,则不会向您收取所用词元的费用。
使用价格表中的切换开关,比较基于词元的定价和基于模态的定价。
基于 token 的定价
| 型号 | 类型 | 价格 | 使用 Batch API 的价格 | ||
|---|---|---|---|---|---|
Gemini 2.0 Flash |
|||||
| 100 万个输入 token | $0.15 | $0.075 | |||
| 100 万个输入音频 token | $1.00 | $0.50 | |||
| 100 万个输出文本 token | $0.60 | $0.30 | |||
| 针对 100 万个训练词元进行调优 | $3.00 | ||||
Gemini 2.0 Flash 图片生成 |
|||||
| 100 万个输入 token | $0.15 | ||||
| 100 万个输入音频 token | $1.00 | ||||
| 100 万个输入视频 token | $3 | ||||
| 100 万个输出文本 token | $0.60 | ||||
| 100 万个输出图片 token | $30.00 | ||||
Gemini 2.0 Flash Live API |
|||||
| 100 万个输入文本 token | $0.5 | ||||
| 100 万个输入音频 token | $3 | ||||
| 100 万个输入视频/图片 token | $3 | ||||
| 100 万个输出文本 token | 2 美元 | ||||
| 100 万个输出音频 token | $12 | ||||
Gemini 2.0 Flash Lite |
|||||
| 100 万个输入 token | $0.075 | $0.0375 | |||
| 100 万个输入音频 token | $0.075 | $0.0375 | |||
| 100 万个输出文本 token | $0.30 | $0.15 | |||
| 针对 100 万个训练词元进行调优 | $1.00 | ||||
使用 Google 搜索建立依据 |
Gemini 2.0 Flash 和 2.5 Flash 每天提供 1,500 条接地提示,不收取额外费用。 超出这些限制的接地提示按 35 美元/1,000 个接地提示计费。 接地提示是指提交给 Gemini 的请求,该请求会对 Google 搜索*执行一项或多项查询。即使向 Google 搜索发送了多个搜索查询,也只会针对接地提示收取一次费用。 如果您每天需要超过 100 万条接地提示,请与您的客户支持团队联系。 |
||||
适用于企业的 Web 接地 |
每 1,000 个接地提示 45 美元。接地提示是指提交给 Gemini 的请求,该请求会对企业版* Web 接地执行一个或多个查询。即使向 Google 搜索发送了多个搜索查询,也只会针对接地提示收取一次费用。 如果您每天需要超过 100 万条接地提示,请与您的客户支持团队联系。 |
||||
| 基于数据进行接地 | 自 2025 年 6 月 16 日起,每 1,000 个请求 2.5 美元。 | ||||
依托 Google 地图进行接地 |
Gemini 模型包含许多每日接地提示,无需额外费用: 超出这些限制的接地提示按 25 美元/1,000 个接地提示计费。 接地提示是指发送给 Gemini 的请求,该请求至少向 Google 地图发出 1 次查询。 如果您每天需要超过 100 万条接地提示,请与您的客户支持团队联系。 |
||||
基于模式的定价
以下模态价格仅供参考,基于平均用例计算。实际结算将仅基于词元:
- 4 个字符大约会生成 1 个文本词元(包括空格)。
- 对于 1024x1024 的图片,它会消耗 1290 个词元。每张图片的词元数因图片分辨率而异。如需详细了解如何计算词元,请参阅我们的文档。
- 视频输入以每秒一帧的采样率消耗每秒 258 个词元。视频(含音频)既要按视频 token 计费,也要按音频 token 计费。
- 音频输入每秒消耗 25 个 token,不包括时间戳。
| 型号 | 类型 | 价格 | 使用 Batch API 的价格 |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| 输入文本(美元/百万字符) | $0.0375 | $0.01875 | |
| 输入图片($/张) | $0.0001935 | $0.00009675 | |
| 输入视频(美元/秒) | $0.0000387 | $0.00001935 | |
| 输入音频(美元/秒) | $0.000025 | $0.0000125 | |
| 输出文本(美元/百万字符) | $0.15 | $0.075 | |
Gemini 2.0 Flash 图片生成 |
|||
| 输入文本(美元/百万字符) | $0.0375 | ||
| 输入图片($/张) | $0.0001935 | ||
| 输入视频(美元/秒) | $0.0000387 | ||
| 输入音频(美元/秒) | $0.000025 | ||
| 输出文本(美元/百万字符) | $0.15 | ||
| 输出图片 ($/image) | $0.04 | ||
Gemini 2.0 Flash Lite |
|||
| 输入文本(美元/百万字符) | $0.01875 | $0.009375 | |
| 输入图片($/张) | $0.00009675 | $0.000048375 | |
| 输入视频(美元/秒) | $0.00001935 | $0.000009675 | |
| 输入音频(美元/秒) | $0.000001875 | $0.000000938 | |
| 输出文本(美元/百万字符) | $0.075 | $0.0375 | |
使用 Google 搜索建立依据 |
Gemini 2.0 Flash 和 2.5 Flash 每天提供 1,500 条接地提示,不收取额外费用。 超出这些限制的接地提示按 35 美元/1,000 个接地提示计费。 接地提示是指提交给 Gemini 的请求,该请求会对 Google 搜索*执行一项或多项查询。即使向 Google 搜索发送了多个搜索查询,也只会针对接地提示收取一次费用。 如果您每天需要超过 100 万条接地提示,请与您的客户支持团队联系。 |
||
适用于企业的 Web 接地 |
每 1,000 个接地提示 45 美元。接地提示是指提交给 Gemini 的请求,该请求会对企业版* Web 接地执行一个或多个查询。即使向 Google 搜索发送了多个搜索查询,也只会针对接地提示收取一次费用。 如果您每天需要超过 100 万条接地提示,请与您的客户支持团队联系。 |
||
* 所列价格以美元 (USD) 为单位。
如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。
* token 训练的计算方法是将训练数据集中的 token 总数乘以周期数。
* PDF 按图片输入计费,一个 PDF 页面相当于一张图片。
* 调优后的模型端点的预测价格与基本模型相同。
* 仅当提示成功返回网络结果(即结果中包含至少一个来自网络的接地支持网址)时,才会对使用 Google 搜索建立依据和使用网络建立依据(企业版)进行计费。Gemini 模型使用费另行收取。
* Gemini 2.0 Flash Live API:每秒音频(输入/输出)25 个词元,每秒视频(输入)258 个词元。在 Gemini 2.0 Flash Live API 处于预览版阶段时,使用 Google 搜索进行接地仍不收取费用。
- LiveAPI 会话的上下文窗口结算方式说明:系统会根据会话上下文窗口中存在的所有词元按轮次向您收费。会话上下文窗口包括新词元(当前轮次)+ 前几轮次中累积的所有词元。这意味着,系统会重新处理过去轮次的词元,并在每个新轮次中将其纳入考虑范围,直到达到您配置的上下文窗口大小。一个“轮次”是指用户的一次输入和模型的回答。
- 启用音频转写功能后,系统会按文本词元输出费率对转写生成的所有文本词元收费。
Vertex AI 模型优化器价格(实验版)*
Vertex AI Model Optimizer 为 Gemini 模型请求提供了一个元端点,简化了企业客户对 Gemini 的使用。使用此服务的客户无需指定使用 Flash、Pro 还是特定版本。他们只需提供可配置的设置(费用、质量或平衡),指明自己的偏好,Model Optimizer 就会通过将每个查询发送到最合适的模型,应用适合任务的适当智能水平。
Vertex AI Model Optimizer 采用动态定价。这意味着,每个词元的平均价格取决于用于完成任务的模型智能水平。因此,下面提供了价格示例,以根据您的配置设置说明可能出现的场景(请参阅下表)。Model Optimizer SKU 是 1 美元的 SKU,用作结算的购买单位,使用模型后仍按用量计费。
| 5:1 的 I/O 比率 | 示例 1 聊天机器人 |
注意:这些范围并非保证,各个客户的实际成效可能会有所不同 | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 客户偏好 | 发送给 MO 的客户输入 token 数 | 发送给 MO 的客户输出 token 数 | 每百万词元的平均输入价格(高范围) | 每百万个词元的平均输出价格(高范围) | 每百万个词元的平均输入价格(低范围) | 每百万个词元的平均输出价格(低范围) | |||||
| 费用 | 1000 万次 | 200 万 | $0.63 | $2.50 | $0.16 | $0.63 | |||||
| 平衡 | 1000 万次 | 200 万 | $1.26 | $5.00 | $0.63 | $2.50 | |||||
| 质量 | 1000 万次 | 200 万 | $1.89 | $7.50 | $1.26 | $5.00 | |||||
| 1:20 I/O 比例 | 示例 2 内容生成 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 客户偏好 | 发送给 MO 的客户输入 token 数 | 发送给 MO 的客户输出 token 数 | 每百万词元的平均输入价格(高范围) | 每百万个词元的平均输出价格(高范围) | 每百万个词元的平均输入价格(低范围) | 每百万个词元的平均输出价格(低范围) | |||||
| 费用 | 100 万 | 2000 万 | $0.63 | $2.50 | $0.16 | $0.63 | |||||
| 平衡 | 100 万 | 2000 万 | $1.26 | $5.00 | $0.63 | $2.50 | |||||
| 质量 | 100 万 | 2000 万 | $1.89 | $7.50 | $1.26 | $5.00 | |||||
其他 Gemini 模型
Gemini 2.0 或 Gemini 2.5 以外的所有 Gemini 模型均按模态计费,例如字符、图片、视频/音频秒数。文本输入按每 1,000 个字符的输入(提示)和每 1,000 个字符的输出(回复)计费。字符按 UTF-8 码位计数,计数中不包括空格,因此每个词元大约包含 4 个字符。生成过滤后响应的预测请求仅针对输入计费。在每个结算周期结束时,1 美分的小数部分 ($0.01) 会四舍五入到 1 美分。媒体输入按图片数量或秒数(视频)收费。如果您的请求因 400 或 500 错误而失败,则不会向您收取所用词元的费用。
| 型号 | 功能 | 类型 | 价格 (=< 128K 输入 token) |
价格 (> 128K 输入词元) |
||
|---|---|---|---|---|---|---|
| Gemini 1.5 Flash | 多模态 | 图片输入 视频输入 文本输入 音频输入 |
$0.00002 / 图片 $0.00002 / 秒 $0.00001875 / 1000 个字符 $0.000002 / 秒 |
$0.00004 / 图片 $0.00004 / 秒 $0.0000375 / 1000 个字符 $0.000004 / 秒 |
||
| 文本输出 | $0.000075 / 1,000 个字符 | $0.00015 / 1000 个字符 | ||||
| 调优* | 训练代币 | 8 美元 / 百万 token | ||||
| Gemini 1.5 Pro | 多模态 | 图片输入 视频输入 文本输入 音频输入 |
$0.00032875 / 图片 $0.00032875 / 秒 $0.0003125 / 1000 个字符 $0.00003125 / 秒 |
$0.0006575 / 图片 $0.0006575 / 秒 $0.000625 / 1000 个字符 $0.0000625 / 秒 |
||
| 文本输出 | $0.00125 / 1,000 个字符 | $0.0025 / 1000 个字符 | ||||
| 调优* | 训练代币 | $80 / 100 万个词元 | ||||
| Gemini 1.0 Pro | 多模态 | 图片输入 视频输入 文本输入 |
$0.0025/图片 $0.002/秒 $0.000125/1000 个字符 |
|||
| 文本输出 | $0.000375/1000 个字符 | |||||
| 使用 Google 搜索建立依据 | 文本 | 每 1,000 个接地提示 35 美元。 接地提示是指提交给 Gemini 的请求,该请求会对 Google 搜索*执行一项或多项查询。即使向 Google 搜索发送了多个搜索查询,也只会针对接地提示收取一次费用。 如果您每天需要超过 100 万条接地提示,请与您的客户支持团队联系。 |
||||
| 适用于企业的 Web 接地 | 文本 | 每 1,000 个接地提示 45 美元。 接地提示是指提交给 Gemini 的请求,该请求会对企业*的 Web 接地功能执行一个或多个查询。即使向 Google 搜索发送了多个搜索查询,也只会针对接地提示收取一次费用。 如果您每天需要超过 100 万条接地提示,请与您的客户支持团队联系。 |
||||
| 基于数据进行接地 | 文本 | 自 2025 年 6 月 16 日起,每 1,000 个请求 $2.5。 |
||||
* 所列价格以美元 (USD) 为单位。
如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。
* 如果查询上下文长度超过 128K,则所有 token 均按长上下文费率计费。
* Gemini 模型以批量模式提供,可享受 50% 的折扣。
* Gemini 1.0 Pro 仅支持最大 32K 的上下文窗口。
* PDF 按图片输入计费,一个 PDF 页面相当于一张图片。
* 调优后的模型端点的预测价格与基本模型相同。
* 仅当提示成功返回网络结果(即包含至少一个来自网络的接地支持网址的结果)时,才会对使用 Google 搜索建立依据和企业版网络接地功能计费。Gemini 模型使用费另行收取。
Imagen
借助 Imagen on Vertex AI,您可以生成新图片并根据您提供的文本提示修改图片,或使用您定义的遮盖区域以及许多其他功能仅修改图片的某些部分。
| 型号 | 功能 | 说明 | 输入 | 输出 | 价格 |
|---|---|---|---|---|---|
| Imagen 4 Ultra | 图片生成 | 生成图片 | 文本提示 | 图片 | 每张图片 $0.06 |
| Imagen 4 | 提升 | 将生成的图片的分辨率提高到 2K、3K 和 4K | 图片 | 图片 | 每张图片 $0.06 |
| Imagen 4 | 图片生成 | 生成图片 | 文本提示 | 图片 | 每张图片 $0.04 |
| Imagen 4 Fast | 图片生成 | 生成图片 | 文本提示 | 图片 | 每张图片 $0.02 |
| Imagen 3 | 图片生成 | 生成图片 修改图片 自定义图片 |
文本提示 | 图片 | 每张图片 $0.04 |
| Imagen 3 Fast | 图片生成 | 生成图片 | 文本提示 | 图片 | 每张图片 $0.02 |
| Imagen 2, Imagen 1 | 图片生成 | 生成图片 | 文本提示 | 映像 | 每个图片 $0.020 |
| Imagen 2, Imagen 1 | 图片修改 | 使用无蒙版或蒙版方法修改图片 | 图片/文字提示 | 映像 | 每个图片 $0.020 |
| Imagen 1 | 提升 | 将生成的图片的分辨率提高到 2K 和 4K | 映像 | 映像 | 每个映像 $0.003 |
| Imagen 1 | 微调 | 启用用户提供的“主题”以用于 Imagen 提示(少样本训练) | 带有文本标识符的主题,每个主题 4-8 张图片 | 微调后的模型(使用用户提供的主题进行训练后) | 每节点时 $(Vertex AI 自定义训练价格) |
| Imagen | 视觉标注 | 为图片生成短文本或长文本字幕 | 映像 | 文本字幕 | $0.0015/图片 |
| Imagen | 视觉问答 | 根据引用图片的问题提供回答 | 图片/文字提示 | 文本回答 | $0.0015/图片 |
| Imagen | Product Recontext | 在新的场景中重新构想产品 | 1-3 张同一产品的图片,以及描述所需场景的文本提示 | 图片 | 每张图片 $0.12 |
| Vertex 虚拟试穿 | 生成人物穿着不同服装的图片 | 1 张人物图片和 1 张服装图片 | 图片 | 每张图片 $0.06 |
所列价格以美元 (USD) 为单位。 如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。
Veo
Veo 可生成各种主题和风格的超高质量视频,并能更好地理解真实世界的物理现象以及人类动作和表情的细微之处。
| 型号 | 功能 | 说明 | 输入 | 输出 | 输出分辨率 | 价格 |
|---|---|---|---|---|---|---|
| Veo 3.1 | 生成视频 + 音频 | 根据文本提示或参考图片生成高质量视频,并同步添加语音/音效 | 文本/图片提示 | 视频 + 音频 | 720p、1080p | 每秒 0.40 美元 |
| Veo 3.1 | 视频生成 | 根据文本提示或参考图片生成高质量视频 | 文本/图片提示 | 视频 | 720p、1080p | $0.20/秒 |
| Veo 3.1 Fast | 生成视频 + 音频 | 根据文本提示或参考图片生成带有同步语音/音效的视频,速度更快 | 文本/图片提示 | 视频 + 音频 | 720p、1080p | $0.15/秒 |
| Veo 3.1 Fast | 视频生成 | 根据文本提示或参考图片更快地生成视频 | 文本/图片提示 | 视频 | 720p、1080p | $0.10/秒 |
| Veo 3 | 生成视频 + 音频 | 根据文本提示或参考图片生成高质量视频,并同步添加语音/音效 | 文本/图片提示 | 视频 + 音频 | 720p、1080p | $0.40/秒 |
| Veo 3 | 视频生成 | 根据文本提示或参考图片生成高质量视频 | 文本/图片提示 | 视频 | 720p、1080p | $0.20/秒 |
| Veo 3 Fast | 生成视频 + 音频 | 根据文本提示或参考图片生成带有同步语音/音效的视频,速度更快 | 文本/图片提示 | 视频 + 音频 | 720p、1080p | $0.15/秒 |
| Veo 3 Fast | 视频生成 | 根据文本提示或参考图片更快地生成视频 | 文本/图片提示 | 视频 | 720p、1080p | $0.10/秒 |
| Veo 2 | 视频生成 | 根据文本提示或参考图片生成视频 | 文本/图片提示 | 视频 | 720p | $0.50/秒 |
| Veo 2 | 高级控制功能 | 通过开始帧和结束帧插值生成视频,延长生成的视频,并应用相机控制 | 文本/图片/视频提示 | 视频 | 720p | $0.50/秒 |
Lyria
Lyria 2 可生成高质量的器乐音乐,非常适合复杂的作曲和详细的创意探索,在这些场景中,细致入微的输出至关重要。
| 型号 | 功能 | 说明 | 输入 | 输出 | 价格 |
|---|---|---|---|---|---|
| Lyria 2 | 音乐生成 | 根据文本提示生成音乐 | 文本提示 | 音乐 | 每 30 秒 $0.06 |
了解 AI 应用的嵌入费用
| 型号 | 类型 | 区域 | 每 1,000 个输入 token 的价格 |
|---|---|---|---|
| Gemini Embedding | 输入 | 全球 |
|
| 输出 | Global |
|
| 型号 | 类型 | 区域 | 每 1,000 个字符的价格 |
|---|---|---|---|
| Embeddings for Text (不包括 Gemini Embedding) |
输入 | Global |
|
| 输出 | Global |
|
| 型号 | 功能 | 说明 | 输入 | 输出 | 价格 |
|---|---|---|---|---|---|
| multimodalembedding | Embeddings for Multimodal:文本 | 使用文本作为输入来生成嵌入 | 文本 | Embeddings | $0.0002/1,000 个字符输入 |
| Embeddings for Multimodal:图片 | 使用图片作为输入来生成嵌入 | 映像 | Embeddings | $0.0001/图片输入 | |
| Embeddings for Multimodal:视频 Plus | Video Plus | 视频 | 嵌入(每分钟视频最多 15 项嵌入) | 每秒视频 $0.0020 | |
| Embeddings for Multimodal:视频标准 | Video Standard | 视频 | 嵌入(每分钟视频最多 8 项嵌入) | 每秒视频 $0.0010 | |
| Embeddings for Multimodal:视频基础知识 | Video Essential | 视频 | 嵌入(每分钟视频最多 4 项嵌入) | 每秒视频 $0.0005 |
| 开源模型 | 类型 | 每 1,000 个输入 token 的价格 |
|---|---|---|
| multilingual-e5-small | 输入: 输出: 批量输入: 批量输出: |
在线请求:$0.000015 在线请求:免费 批量请求:$0.0000075 批量请求:免费 |
| multilingual-e5-large | 输入: 输出: 批量输入: 批量输出: |
在线请求:$0.000025 在线请求:免费 批量请求:$0.0000125 批量请求:免费 |
所列价格以美元 (USD) 为单位。 如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。
Vertex AI 代码补全的价格
Vertex AI 上的生成式 AI 按每 1,000 个字符的输入(提示)和每 1,000 个字符的输出(回复)计费。字符按 UTF-8 码位计数,计数中不包括空格。在预览版阶段,费用享受 100% 的折扣。生成过滤后响应的预测请求仅针对输入计费。在每个结算周期结束时,1 美分的小数部分 ($0.01) 会四舍五入到 1 美分。
| 模型 | 类型 | 区域 | 每 1,000 个字符的价格 |
|---|---|---|---|
| Codey for Code Completion | 输入 | 全球 |
|
| 输出 | 全球 |
|
所列价格以美元 (USD) 为单位。 如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。
翻译(文本)
使用 Vertex AI API 和翻译 LLM 来翻译文本。与经典翻译模型相比,LLM 翻译往往更流畅、更像人说的话,但支持的语言更少(了解详情)。
| 型号 | 方法 | 用量 | 每 100 万个字符的价格 |
|---|---|---|---|
| LLM | 文本 翻译* | 每月输入字符数 |
每 100 万个字符 $10* |
| 每月输出字符数 |
每 100 万个字符 $10* |
所列价格以美元 (USD) 为单位。
如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。
*价格按模型处理的字符数计算。如需详细了解会对哪些字符计费,请参阅计费字符
显式缓存的上下文缓存存储价格
| 型号 | 功能 | 类型 | 价格(/100 万个词元) <= 20 万个输入词元 |
价格(/100 万个 token) > 20 万个输入 token |
|---|---|---|---|---|
| Gemini 3 Pro | 上下文缓存存储空间 | 输入(文本、图片、视频、音频) | $4.5 (/M Tok/小时) | $4.5 (/M Tok/小时) |
| Gemini 2.5 Pro | 上下文缓存存储空间 | 输入(文本、图片、视频、音频) | $4.5 (/M Tok/小时) | $4.5 (/M Tok/小时) |
| Gemini 2.5 Flash | 上下文缓存存储空间 | 输入(文本、图片、视频、音频) | $1 (/百万词元/小时) | $1 (/百万词元/小时) |
| Gemini 2.5 Flash Lite | 上下文缓存存储空间 | 输入(文本、图片、视频、音频) | $1 (/百万词元/小时) | $1 (/百万词元/小时) |
Gemini 2.0 模型
基于 token 的定价
模型 |
类型 |
存储 (百万词元-小时) |
价格 |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| 100 万个输入 token | $1.00 | $0.0375 | |
| 100 万个输入音频 token | $1.00 | $0.25 | |
| 100 万个输出文本 token | 不适用 | 不适用 | |
Gemini 2.0 Flash Lite |
|||
| 100 万个输入 token | $1.00 | $0.01875 | |
| 100 万个输入音频 token | $1.00 | $0.01875 | |
| 100 万个输出文本 token | 不适用 | 不适用 |
基于模式的定价
以下模态价格仅供参考,基于平均用例计算。实际结算将仅基于词元:
- 4 个字符大约会生成 1 个文本词元(包括空格)。
- 对于 1024x1024 的图片,它会消耗 1290 个词元。每张图片的词元数因图片分辨率而异。如需详细了解如何计算词元,请参阅我们的文档。
- 视频输入以每秒一帧的采样率消耗每秒 258 个词元。视频(含音频)既要按视频 token 计费,也要按音频 token 计费。
- 音频输入每秒消耗 25 个 token,不包括时间戳。
模型 |
类型 |
存储 (模态小时) |
价格 |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| 输入文本(美元/百万字符) | $0.25 | $0.009375 | |
| 输入图片($/张) | $0.00129 | $0.000048375 | |
| 输入视频(美元/秒) | $0.000258 | $0.000009675 | |
| 输入音频(美元/秒) | $0.000025 | $0.00000625 | |
| 输出文本(美元/百万字符) | 不适用 | 不适用 | |
Gemini 2.0 Flash Lite |
|||
| 输入文本(美元/百万字符) | $0.25 | $0.0046875 | |
| 输入图片($/张) | $0.00129 | $0.0000241875 | |
| 输入视频($/秒) | $0.000258 | $0.000009675 | |
| 输入音频(美元/秒) | $0.000258 | $0.0000048375 | |
| 输出文本(美元/百万字符) | 不适用 | 不适用 | |
使用 Google 搜索建立依据 |
Gemini 2.0 Flash 每天最多可处理 1,500 个接地请求,无需额外付费。每天超过 1,500 次的接地请求 按每 1,000 次请求 35 美元计费(每天最多 100 万次请求)。 如果您每天需要超过 100 万次请求,请与您的客户支持团队联系。 |
||
适用于企业的 Web 接地 |
自 2025 年 5 月 5 日起,每 1,000 个请求 45 美元(每天最多 100 万个请求)。 如果您每天需要超过 100 万次请求,请与您的客户支持团队联系。 |
||
* 所列价格以美元 (USD) 为单位。
如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。
* PDF 按图片输入计费,一个 PDF 页面相当于一张图片。
* 调优后的模型端点的预测价格与基本模型相同。
* 仅当请求返回的结果中包含至少一个来自网络的接地支持网址时,才会针对使用 Google 搜索建立依据的请求收费。此外,还需支付标准 Gemini 模型使用费。
预配的吞吐量
预配吞吐量可确保满足您的生成式 AI 需求,并通过生成式 AI 扩缩单元 (GSU) 进行交易。如需详细了解每个 GSU 提供的吞吐量,请点击此处,并使用我们的在线估算器(点击此处)。
| 时长 | 每个 GSU 的价格 | 每 |
|---|---|---|
| 1 周提交 | $1,200 | 周 |
| 1 个月承诺期 | $2,700 | 月 |
| 3 个月承诺期 | $2,400 | 月 |
| 1 年期承诺 | $2,000 | 月 |
费用计算示例
用户需要确保可以使用 gemini-2.0-flash 支持每秒 10 次查询 (QPS),每次查询的输入为 1,000 个文本 token 和 500 个音频 token,并接收 300 个文本 token 的输出。
根据吞吐量和消耗率表格,对于 gemini-2.0-flash,我们知道输入文本 token 的消耗率为 1 个 token,输入音频 token 的消耗率为 7 个 token,输出文本 token 的消耗率为 4 个 token。
用户的输入 token 总数为 1,000*(每个输入文本 token 1 个 token)+ 500*(每个输入音频 token 7 个 token)= 4,500 个按消耗调整后的输入 token。用户的总输出 token 数为 300 *(每个输出文本 token 4 个 token)= 1,200 个按消耗调整后的输出 token。将它们相加,得到 4,500 个按消耗调整后的输入 token + 1,200 个按消耗调整后的输出 token = 每次查询 5,700 个总 token。
将每次查询的 token 总数乘以 QPS,即可得出每秒的总 token 数:5,700 个 token/查询 * 10 QPS = 57,000 个 token/秒。
将此值除以每 GSU 每秒的总吞吐量,得到每秒 57,000 个总 token ÷ 每 GSU 每秒 3,360 吞吐量 = 16.96 GSU。此模型的最小 GSU 购买增量为 1,因此用户需要 17 个 GSU。
如果用户想要以这种吞吐量持续运行 1 周,则需要支付 $1,200 * 17 GSU = 每周 $20,400。如果他们想以这种吞吐量运行 1 个月,则费用为 $2,700 * 17 GSU = 每月 $45,900。如果他们想将此吞吐量维持 3 个月,则每月需要支付 $2,400 * 17 GSUs = $40,800。最后,如果他们想将此吞吐量维持 1 年,则每月需要支付 $2,000 * 17 GSUs = $34,000。
模型调优
模型调优是针对任务自定义大型模型的有效方法。这是提高模型质量和效率的关键步骤。模型调优具有以下优势:
- 针对您的特定任务提供更高的质量
- 提高模型稳健性
- 提示较短,因此推理延迟时间和费用更低
调优按每百万个训练 token 收费。token 训练的计算方法是将训练数据集中的 token 总数乘以周期数。对于模型推理,Gemini 调优后模型端点的预测价格与基本模型相同。
| 型号 | 类型 | 价格(/100 万个训练词元) |
|---|---|---|
| Gemini 2.5 Pro | 监督式微调 | $25 |
| Gemini 2.5 Flash | 监督式微调 偏好调优 |
$5 |
| Gemini 2.5 Flash Lite | 监督式微调 偏好调优 |
$1.5 |
| Gemma 3 27B IT | 监督式微调 | $6.83 |
| Llama 3.1 8B | 监督式微调 | $0.67 |
| Llama 3.2 1B | 监督式微调 | $0.28 |
| Llama 3.2 3B | 监督式微调 | $0.61 |
| Llama 3.3 70B | 监督式微调 | $6.72 |
| Llama 4 Scout 17B 16E | 监督式微调 | $5.77 |
| Qwen 3 32B | 监督式微调 | $6.57 |
* token 训练的计算方法是将训练数据集中的 token 总数乘以周期数。
* Gemini 调优模型端点的预测价格与基础模型相同。
比较 Vertex AI 上的合作伙伴模型的价格
合作伙伴模型是由 Google 合作伙伴开发的一系列精选生成式 AI 模型。合作伙伴模型以托管式 API 的形式提供。如需了解详情,请参阅合作伙伴模型概览。 以下部分列出了 Google 合作伙伴模型的价格详情。
AI21 Lab 的模型
| 型号 | 价格 |
|---|---|
| Jamba 1.5 Large(已弃用) | 输入:$2 / 百万 token 输出:$8 / 百万 token |
| Jamba 1.5 Mini(已弃用) | 输入:$0.20 / 百万 token 输出:$0.40 / 百万 token |
Anthropic 的 Claude 模型
采用区域定价的模型
全球
| 型号 | 价格(/100 万个 token)< 20 万个输入 token | 价格(/100 万个 token)>= 20 万个输入 token |
|---|---|---|
| Claude Opus 4.5 | 输入:$5.00 输出:$25.00 批量输入:$2.50 批量输出:$12.50 5 分钟缓存写入:$6.25 1 小时缓存写入:$10.00 缓存命中:$0.50 5 分钟批量缓存写入:$3.125 1 小时批量缓存写入:$5.00 批量缓存命中:$0.25 |
|
| Claude Sonnet 4.5 | 输入:$3.00 输出:$15.00 批量输入:$1.50 批量输出:$7.50 5 分钟缓存写入:$3.75 1 小时缓存写入:$6.00 缓存命中:$0.30 批量缓存写入:$1.88 批量缓存命中:$0.15 |
输入:$6.00 输出:$22.50 批量输入:$3.00 批量输出:$11.25 5 分钟缓存写入:$7.50 1 小时缓存写入:$12.00 缓存命中:$0.60 批量缓存写入:$3.75 批量缓存命中:$0.30 |
| Claude Haiku 4.5 | 输入:$1.00 输出:$5.00 批量输入:$0.50 批量输出:$2.50 5 分钟缓存写入:$1.25 1 小时缓存写入:$2.00 缓存命中:$0.10 批量缓存写入:$0.625 批量缓存命中:$0.05 |
us-east5
| 型号 | 价格(/100 万个 token)< 20 万个输入 token | 价格(/100 万个 token)>= 20 万个输入 token |
|---|---|---|
| Claude Opus 4.5 | 输入:$5.50 输出:$27.50 批量输入:$2.75 批量输出:$13.75 5 分钟缓存写入:$6.875 1 小时缓存写入:$11.00 缓存命中:$0.55 5 分钟批量缓存写入:$3.438 1 小时批量缓存写入:$5.50 批量缓存命中:$0.275 |
|
| Claude Sonnet 4.5 | 输入:$3.30 输出:$16.50 批量输入:$1.65 批量输出:$8.25 5 分钟缓存写入:$4.13 1 小时缓存写入:$6.60 缓存命中:$0.33 批量缓存写入:$2.06 批量缓存命中:$0.17 |
输入:$6.60 输出:$24.75 批量输入:$3.30 批量输出:$12.38 5 分钟缓存写入:$8.25 1 小时缓存写入:$13.20 缓存命中:$0.66 批量缓存写入:$4.13 批量缓存命中:$0.33 |
| Claude Haiku 4.5 | 输入:$1.10 输出:$5.50 批量输入:$0.55 批量输出:$2.75 5 分钟缓存写入:$1.375 1 小时缓存写入:$2.20 缓存写入:$1.375 缓存命中:$0.11 批量缓存写入:$0.688 批量缓存命中:$0.055 |
europe-west1
| 型号 | 价格(/100 万个 token)< 20 万个输入 token | 价格(/100 万个 token)>= 20 万个输入 token |
|---|---|---|
| Claude Opus 4.5 | 输入:$5.50 输出:$27.50 批量输入:$2.75 批量输出:$13.75 5 分钟缓存写入:$6.875 1 小时缓存写入:$11.00 缓存命中:$0.55 5 分钟批量缓存写入:$3.438 1 小时批量缓存写入:$5.50 批量缓存命中:$0.275 |
|
| Claude Sonnet 4.5 | 输入:$3.30 输出:$16.50 批量输入:$1.65 批量输出:$8.25 5 分钟缓存写入:$4.13 1 小时缓存写入:$6.60 缓存命中:$0.33 批量缓存写入:$2.06 批量缓存命中:$0.17 |
输入:$6.60 输出:$24.75 批量输入:$3.30 批量输出:$12.38 5 分钟缓存写入:$8.25 1 小时缓存写入:$13.20 缓存命中:$0.66 批量缓存写入:$4.13 批量缓存命中:$0.33 |
| Claude Haiku 4.5 | 输入:$1.10 输出:$5.50 批量输入:$0.55 批量输出:$2.75 5 分钟缓存写入:$1.375 1 小时缓存写入:$2.20 缓存命中:$0.11 批量缓存写入:$0.688 批量缓存命中:$0.055 |
asia-southeast1
| 型号 | 价格(/100 万个 token)< 20 万个输入 token | 价格(/100 万个 token)>= 20 万个输入 token |
|---|---|---|
| Claude Opus 4.5 | 输入:$5.50 输出:$27.50 批量输入:$2.75 批量输出:$13.75 5 分钟缓存写入:$6.875 1 小时缓存写入:$11.00 缓存命中:$0.55 5 分钟批量缓存写入:$3.438 1 小时批量缓存写入:$5.50 批量缓存命中:$0.275 |
|
| Claude Sonnet 4.5 | 输入:$3.30 输出:$16.50 批量输入:$1.65 批量输出:$8.25 5 分钟缓存写入:$4.13 1 小时缓存写入:$6.60 缓存命中:$0.33 批量缓存写入:$2.06 批量缓存命中:$0.17 |
输入:$6.60 输出:$24.75 批量输入:$3.30 批量输出:$12.38 5 分钟缓存写入:$8.25 1 小时缓存写入:$13.20 缓存命中:$0.66 批量缓存写入:$4.13 批量缓存命中:$0.33 |
asia-east1
| 型号 | 价格(/100 万个 token)< 20 万个输入 token | 价格(/100 万个 token)>= 20 万个输入 token |
|---|---|---|
| Claude Haiku 4.5 | 输入:$1.10 输出:$5.50 批量输入:$0.55 批量输出:$2.75 5 分钟缓存写入:$1.375 1 小时缓存写入:$2.20 缓存写入:$1.375 缓存命中:$0.11 批量缓存写入:$0.688 批量缓存命中:$0.055 |
* 如果查询输入上下文的词元数大于或等于 20 万,则所有词元(输入和输出)均按长上下文费率计费。
所有区域的价格都相同的模型
| 型号 | 价格(/100 万个 token)< 20 万个输入 token | 价格(/100 万个 token)>= 20 万个输入 token |
|---|---|---|
| Claude Opus 4.1 | 输入:$15 输出:$75 批量输入:$7.50 批量输出:$37.50 5 分钟缓存写入:$18.75 1 小时缓存写入:$30 缓存命中:$1.50 批量缓存写入:$9.375 批量缓存命中:$0.75 |
不适用 |
| Claude Opus 4 | 输入:$15 输出:$75 批量输入:$7.50 批量输出:$37.50 5 分钟缓存写入:$18.75 1 小时缓存写入:$30 缓存命中:$1.50 批量缓存写入:$9.375 批量缓存命中:$0.75 |
不适用 |
| Claude Sonnet 4 | 输入:$3 输出:$15 批量输入:$1.50 批量输出:$7.50 5 分钟缓存写入:$3.75 1 小时缓存写入:$6.00 缓存命中:$0.30 批量缓存写入:$1.875 批量缓存命中:$0.15 |
输入:$6 输出:$22.50 批量输入:$3 批量输出:$11.25 5 分钟缓存写入:$7.50 1 小时缓存写入:$12.00 缓存命中:$0.60 批量缓存写入:$3.75 批量缓存命中:$0.30 |
| Claude 3.5 Haiku | 输入:$0.80 输出:$4 批量输入:$0.40 批量输出:$2 5 分钟缓存写入:$1 1 小时缓存写入:$1.60 缓存命中:$0.08 批量缓存写入:$0.50 批量缓存命中:$0.04 |
不适用 |
| Claude 3 Haiku | 输入:$0.25 输出:$1.25 5 分钟缓存写入:$0.30 1 小时缓存写入:$0.50 缓存命中:$0.03 | 不适用 |
| Claude 3.7 Sonnet(已弃用) | 输入:$3 输出:$15 批量输入:$1.50 批量输出:$7.50 缓存写入:$3.75 缓存命中:$0.30 批量缓存写入:$1.875 批量缓存命中:$0.15 |
不适用 |
| Claude 3.5 Sonnet v2(已弃用) | 输入:$3 输出:$15 批量输入:$1.50 批量输出:$7.50 缓存写入:$3.75 缓存命中:$0.30 批量缓存写入:$1.875 批量缓存命中:$0.15 |
不适用 |
| Claude 3.5 Sonnet(已弃用) | 输入:$3 输出:$15 缓存写入:$3.75 缓存命中:$0.30 |
不适用 |
| Claude 3 Opus(已弃用) | 输入:$15 输出:$75 缓存写入:$18.75 缓存命中:$1.50 |
不适用 |
* 如果查询输入上下文的词元数大于或等于 20 万,则所有词元(输入和输出)均按长上下文费率计费。
工具价格
| 工具 | 价格 |
|---|---|
| Web 搜索请求 | 每 1,000 次搜索$10
支持的模型:Claude Haiku 4.5、Claude Sonnet 4.5、Claude Sonnet 4、Claude Opus 4.1 和 Claude Opus 4。 |
* 如果查询输入上下文的词元数大于或等于 20 万,则所有词元(输入和输出)均按长上下文费率计费。
Deepseek 的模型
| 型号 | 价格 |
|---|---|
| DeepSeek-V3.1 | 输入:$0.60 / 百万个 token 输出:$1.70 / 百万个 token 批量输入:$0.30 / 百万个 token 批量输出:$0.85 / 百万个 token |
| DeepSeek-V3.2 * | 输入:$0.56 / 百万 token 输出:$1.68 / 百万 token 批量输入:$0.28 / 百万 token 批量输出:$0.84 / 百万 token |
| DeepSeek-R1 (0528) | 输入:$1.35 / 百万个词元 输出:$5.40 / 百万个词元 批量输入:$0.675 / 百万个词元 批量输出:$2.70 / 百万个词元 |
| DeepSeek-OCR | 输入:$0.30 / 百万个词元(或 $0.0003/页) 输出:$1.20 / 百万个词元(或 $0.00012/页) |
- 2025 年 12 月 17 日之前可免费使用。
MiniMax 的模型
| 型号 | 价格 |
|---|---|
| MiniMax-M2 | 输入:$0.30 / 百万 token 输出:$1.20 / 百万 token |
Moonshot 的模型
| 型号 | 价格 |
|---|---|
| Kimi-K2-Thinking | 输入:$0.60 / 百万个词元 输出:$2.50 / 百万个词元 |
Qwen 的模型
| 型号 | 价格 |
|---|---|
| Qwen3-Next-80B-Thinking | 输入:$0.15 / 百万 token 输出:$1.20 / 百万 token |
| Qwen3-Next-80B-Instruct | 输入:$0.15 / 百万 token 输出:$1.20 / 百万 token |
| Qwen3-Coder-480B-A35B-Instruct | 输入:$0.22 / 百万 token 输出:$1.80 / 百万 token 批量输入:$0.11 / 百万 token 批量输出:$0.90 / 百万 token |
| Qwen3-235B-A22B-Instruct-2507 | 输入:$0.22 / 百万 token 输出:$0.88 / 百万 token 批量输入:$0.11 / 百万 token 批量输出:$0.44 / 百万 token |
OpenAI 的模型
| 型号 | 价格 |
|---|---|
| gpt-oss-120b | 输入:$0.09 / 百万个 token 输出:$0.36 / 百万个 token 批量输入:$0.045 / 百万个 token 批量输出:$0.18 / 百万个 token |
| gpt-oss-20b | 输入:$0.07 / 百万 token 输出:$0.25 / 百万 token 批量输入:$0.035 / 百万 token 批量输出:$0.125 / 百万 token |
Meta 的 Llama 模型
| 型号 | 价格 |
|---|---|
| Llama 3.1 405B | 输入:$5.00 / 百万 token 输出:$16.00 / 百万 token |
| Llama 3.3 70B | 输入:$0.72 / 百万 token 输出:$0.72 / 百万 token 批量输入:$0.36 / 百万 token 批量输出:$0.36 / 百万 token |
| Llama 4 Scout | 输入:$0.25 / 百万 token 输出:$0.70 / 百万 token 批量输入:$0.125 / 百万 token 批量输出:$0.35 / 百万 token |
| Llama 4 Maverick | 输入:$0.35 / 百万个词元 输出:$1.15 / 百万个词元 批量输入:$0.175 / 百万个词元 批量输出:$0.575 / 百万个词元 |
Mistral AI 的模型
| 型号 | 价格 |
|---|---|
| Mistral OCR (25.05) | 输入:$0.0005 / 百万个 token(或 $0.0005/页) 输出:$0.0005 / 百万个 token(或 $0.0005/页) |
| Mistral Medium 3 | 输入:$0.40 / 百万个词元 输出:$2.00 / 百万个词元 |
| Mistral Small 3.1 (25.03) | 输入:$0.10 / 百万个 token 输出:$0.30 / 百万个 token |
| Mistral Large (24.11)(已弃用) | 输入:$2.00 / 百万 token 输出:$6.00 / 百万 token |
| Codestral 2 | 输入:$0.30 / 百万个词元 输出:$0.90 / 百万个词元 |
| Codestral (25.01)(已弃用) | 输入:$0.30 / 百万个词元 输出:$0.90 / 百万个词元 |