Vertex AI 中构建和部署 AI 模型的费用

所列价格以美元 (USD) 为单位。如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。

只有返回 200 响应代码的请求才会向您收费。对于返回任何其他响应代码（例如 4xx 和 5xx 代码）的请求，不会收取输入或输出费用。

本页面介绍了 Vertex AI 上的生成式 AI 的价格。如需了解所有其他 Vertex AI 价格（包括机器学习平台和 MLOps 服务），请参阅 Vertex AI 价格页面。

Google 模型

Gemini 3

型号	类型	价格（/100 万个 token）<= 20 万个输入 token	价格（/100 万个 token）> 20 万个输入 token	价格（/100 万个 token）<= 20 万个缓存输入 token	价格（/100 万个 token）> 20 万个缓存输入 token	价格（/100 万个词元）<= 20 万个输入词元（使用批处理 API）	价格（/100 万个词元）> 20 万个输入词元（使用批量 API）
Gemini 3 Pro 预览版
	输入（文本、图片、视频、音频）	2 美元	$4	$0.2	$0.4	$1	2 美元
	文本输出（回答和推理）	$12	$18	不适用	不适用	$6	$9
	图片输出**	$120	不适用	不适用	不适用	$60	不适用
Gemini 3 Flash 预览版
	输入（文本、图片、视频）	$0.5	$0.5	$0.05	$0.05	$0.25	$0.25
	输入（音频）	$1	$1	$0.1	$0.1	$0.5	$0.5
	文本输出（回答和推理）	$3	$3	不适用	不适用	$1.5	$1.5
依托 Google 搜索进行接地和依托 Enterprise Web Search 进行接地	包括每月 5,000 次免费搜索查询，这些查询在所有 Gemini 3 模型之间汇总计算。超出这些限制的搜索查询将按 1,000 次搜索查询 14 美元计费。客户向 Gemini 提交的请求可能会导致向 Google 搜索（或 Enterprise 版的 Web Grounding）发出一个或多个查询。您需要为执行的每个单独搜索查询付费。此功能将于 2026 年 1 月 5 日开始收费。依托 Google 搜索进行接地或依托 Web 进行接地（企业版）提供的输入词元不收费。如果您每天需要超过 100 万条接地提示，请与您的客户支持团队联系。
依托 Google 地图进行接地	包括每月 5,000 次免费搜索查询，这些查询在所有 Gemini 3 模型之间汇总计算。超出这些限制的 Maps 查询按 $14/1,000 次查询计费。客户向 Gemini 提交的请求可能会导致向 Google 地图发出一个或多个查询。您需要为执行的每个查询付费。结算将于 2026 年 1 月 5 日开始 Google 地图提供的输入词元不收费。
基于数据进行接地	每 1,000 个提示 $2.50。

* 如果查询输入上下文超过 20 万个词元，则所有词元（输入和输出）均按长上下文费率计费。
** 1K (1024x1024) 和 2K (2048x2048) 输出图片消耗 1, 120 个图片输出词元，相当于每张生成图片 $0.134。一张 4K (4096x4096) 图片消耗 2, 000 个图片输出 token，相当于每张生成的图片花费 0.24 美元。

Gemini 2.5

型号	类型	价格（/100 万个 token）<= 20 万个输入 token	价格（/100 万个 token）> 20 万个输入 token	价格（/100 万个 token）<= 20 万个缓存输入 token	价格（/100 万个 token）> 20 万个缓存输入 token	价格（/100 万个词元）<= 20 万个输入词元（使用批处理 API）	价格（/100 万个词元）> 20 万个输入词元（使用批量 API）
Gemini 2.5 Pro
	输入（文本、图片、视频、音频）	$1.25	$2.5	$0.125	$0.250	$0.625	$1.25
	文本输出（回答和推理）	$10	$15	不适用	不适用	$5	7.5
Gemini 2.5 Pro 计算机使用 - 预览版
	输入（文本、图片、视频、音频）	$1.25	$2.5	不适用	不适用	不适用	不适用
	文本输出（回答和推理）	$10.00	$15.00	不适用	不适用	不适用	不适用
Gemini 2.5 Flash
	输入（文本、图片、视频）	$0.30	$0.30	$0.030	$0.030	$0.15	$0.15
	音频输入	$1	$1	$0.100	$0.100	$0.5	$0.5
	文本输出（回答和推理）	$2.50	$2.50	不适用	不适用	$1.25	$1.25
	图片输出***	$30	$30	不适用	不适用	$15	$15
Gemini 2.5 Flash Live API
	100 万个输入文本 token	$0.5	$0.5	不适用	不适用	不适用	不适用
	100 万个输入音频 token	$3	$3	不适用	不适用	不适用	不适用
	100 万个输入视频/图片 token	$3	$3	不适用	不适用	不适用	不适用
	100 万个输出文本 token	2 美元	2 美元	不适用	不适用	不适用	不适用
	100 万个输出音频 token	$12	$12	不适用	不适用	不适用	不适用
Gemini 2.5 Flash Lite
	输入（文本、图片、视频）	$0.1	$0.1	$0.010	$0.010	$0.05	$0.05
	音频输入	$0.3	$0.3	$0.030	$0.030	$0.15	$0.15
	文本输出（回答和推理）	$0.4	$0.4	不适用	不适用	$0.2	$0.2
使用 Google 搜索建立依据	Gemini 2.0 Flash、2.5 Flash 和 2.5 Flash-Lite 每天可免费使用 1,500 个接地提示。Gemini 2.5 Pro 每天提供 10,000 个接地提示，无需额外付费。超出这些限制的接地提示按 35 美元/1,000 个接地提示计费。接地提示是指提交给 Gemini 的请求，该请求会对 Google 搜索&ast;&ast;执行一项或多项查询。即使向 Google 搜索发送了多个搜索查询，也只会针对接地提示收取一次费用。如果您每天需要超过 100 万条接地提示，请与您的客户支持团队联系。
适用于企业的 Web 接地	每 1,000 个接地提示 45 美元。接地提示是指提交给 Gemini 的请求，该请求会对企业版 Web 接地功能发出一个或多个查询**。即使向 Google 搜索发送了多个搜索查询，也只会针对接地提示收取一次费用。如果您每天需要超过 100 万条接地提示，请与您的客户支持团队联系。
基于数据进行接地	每 1,000 个请求 $2.5。
依托 Google 地图进行接地	每 1,000 条接地提示 25 美元。接地提示是指发送给 Gemini 的请求，该请求至少向 Google 地图发出 1 次查询。

* 如果查询输入上下文超过 20 万个词元，则所有词元（输入和输出）均按长上下文费率计费。
** 仅当提示成功返回网络结果（即结果中包含至少一个来自网络的接地支持网址）时，才会针对使用 Google 搜索接地和企业版网络接地功能收费。Gemini 模型使用费另行收取。
*** 一张 1024x1024 的图片会消耗 1290 个词元。每张图片的词元数因图片分辨率而异。如需详细了解如何计算词元，请参阅我们的文档。
****“计算机使用”结算使用 Gemini 2.5 Pro SKU，如需拆分“计算机使用”费用，请应用结算标记。如需了解详情，请点击此处。

LiveAPI 会话的上下文窗口结算方式说明：系统会根据会话上下文窗口中存在的所有词元按轮次向您收费。会话上下文窗口包括新词元（当前轮次）+ 前几轮次中累积的所有词元。这意味着，系统会重新处理过去轮次的词元，并在每个新轮次中将其纳入考虑范围，直到达到您配置的上下文窗口大小。一个“轮次”是指用户的一次输入和模型的回答。
主动音频模式：启用后，LiveAPI 在监听时会收取输入词元费用。只有在 API 响应时，才会对输出词元收费。
启用音频转写功能后，系统会按文本词元输出费率对转写生成的所有文本词元收费。

Gemini 2.0

Gemini 2.0 按词元计费。如需在发送请求之前计算请求中的输入 token 数，可以使用 SDK 词元化器或 countTokens API。如果您的请求因 400 或 500 错误而失败，则不会向您收取所用词元的费用。

使用价格表中的切换开关，比较基于词元的定价和基于模态的定价。

基于 token 的定价

型号	类型	价格	使用 Batch API 的价格
Gemini 2.0 Flash
	100 万个输入 token	$0.15	$0.075
	100 万个输入音频 token	$1.00	$0.50
	100 万个输出文本 token	$0.60	$0.30
	针对 100 万个训练词元进行调优	$3.00
Gemini 2.0 Flash 图片生成
	100 万个输入 token	$0.15
	100 万个输入音频 token	$1.00
	100 万个输入视频 token	$3
	100 万个输出文本 token	$0.60
	100 万个输出图片 token	$30.00
Gemini 2.0 Flash Live API
	100 万个输入文本 token	$0.5
	100 万个输入音频 token	$3
	100 万个输入视频/图片 token	$3
	100 万个输出文本 token	2 美元
	100 万个输出音频 token	$12
Gemini 2.0 Flash Lite
	100 万个输入 token	$0.075	$0.0375
	100 万个输入音频 token	$0.075	$0.0375
	100 万个输出文本 token	$0.30	$0.15
	针对 100 万个训练词元进行调优	$1.00
使用 Google 搜索建立依据	Gemini 2.0 Flash 和 2.5 Flash 每天提供 1,500 条接地提示，不收取额外费用。超出这些限制的接地提示按 35 美元/1,000 个接地提示计费。接地提示是指提交给 Gemini 的请求，该请求会对 Google 搜索*执行一项或多项查询。即使向 Google 搜索发送了多个搜索查询，也只会针对接地提示收取一次费用。如果您每天需要超过 100 万条接地提示，请与您的客户支持团队联系。
适用于企业的 Web 接地	每 1,000 个接地提示 45 美元。接地提示是指提交给 Gemini 的请求，该请求会对企业版* Web 接地执行一个或多个查询。即使向 Google 搜索发送了多个搜索查询，也只会针对接地提示收取一次费用。如果您每天需要超过 100 万条接地提示，请与您的客户支持团队联系。
基于数据进行接地	自 2025 年 6 月 16 日起，每 1,000 个请求 2.5 美元。
依托 Google 地图进行接地	Gemini 模型包含许多每日接地提示，无需额外费用： Gemini Flash 和 Flash-Lite：每天最多 1,500 个接地提示（二者合计）。 Gemini Pro：每天 10,000 个接地提示。超出这些限制的接地提示按 25 美元/1,000 个接地提示计费。接地提示是指发送给 Gemini 的请求，该请求至少向 Google 地图发出 1 次查询。如果您每天需要超过 100 万条接地提示，请与您的客户支持团队联系。

基于模式的定价

以下模态价格仅供参考，基于平均用例计算。实际结算将仅基于词元：

4 个字符大约会生成 1 个文本词元（包括空格）。

对于 1024x1024 的图片，它会消耗 1290 个词元。每张图片的词元数因图片分辨率而异。如需详细了解如何计算词元，请参阅我们的文档。

视频输入以每秒一帧的采样率消耗每秒 258 个词元。视频（含音频）既要按视频 token 计费，也要按音频 token 计费。

音频输入每秒消耗 25 个 token，不包括时间戳。

型号	类型	价格	使用 Batch API 的价格
Gemini 2.0 Flash
	输入文本（美元/百万字符）	$0.0375	$0.01875
	输入图片（$/张）	$0.0001935	$0.00009675
	输入视频（美元/秒）	$0.0000387	$0.00001935
	输入音频（美元/秒）	$0.000025	$0.0000125
	输出文本（美元/百万字符）	$0.15	$0.075
Gemini 2.0 Flash 图片生成
	输入文本（美元/百万字符）	$0.0375
	输入图片（$/张）	$0.0001935
	输入视频（美元/秒）	$0.0000387
	输入音频（美元/秒）	$0.000025
	输出文本（美元/百万字符）	$0.15
	输出图片 ($/image)	$0.04
Gemini 2.0 Flash Lite
	输入文本（美元/百万字符）	$0.01875	$0.009375
	输入图片（$/张）	$0.00009675	$0.000048375
	输入视频（美元/秒）	$0.00001935	$0.000009675
	输入音频（美元/秒）	$0.000001875	$0.000000938
	输出文本（美元/百万字符）	$0.075	$0.0375
使用 Google 搜索建立依据	Gemini 2.0 Flash 和 2.5 Flash 每天提供 1,500 条接地提示，不收取额外费用。超出这些限制的接地提示按 35 美元/1,000 个接地提示计费。接地提示是指提交给 Gemini 的请求，该请求会对 Google 搜索*执行一项或多项查询。即使向 Google 搜索发送了多个搜索查询，也只会针对接地提示收取一次费用。如果您每天需要超过 100 万条接地提示，请与您的客户支持团队联系。
适用于企业的 Web 接地	每 1,000 个接地提示 45 美元。接地提示是指提交给 Gemini 的请求，该请求会对企业版* Web 接地执行一个或多个查询。即使向 Google 搜索发送了多个搜索查询，也只会针对接地提示收取一次费用。如果您每天需要超过 100 万条接地提示，请与您的客户支持团队联系。

* 所列价格以美元 (USD) 为单位。如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。
* token 训练的计算方法是将训练数据集中的 token 总数乘以周期数。
* PDF 按图片输入计费，一个 PDF 页面相当于一张图片。
* 调优后的模型端点的预测价格与基本模型相同。
* 仅当提示成功返回网络结果（即结果中包含至少一个来自网络的接地支持网址）时，才会对使用 Google 搜索建立依据和使用网络建立依据（企业版）进行计费。Gemini 模型使用费另行收取。
* Gemini 2.0 Flash Live API：每秒音频（输入/输出）25 个词元，每秒视频（输入）258 个词元。在 Gemini 2.0 Flash Live API 处于预览版阶段时，使用 Google 搜索进行接地仍不收取费用。

LiveAPI 会话的上下文窗口结算方式说明：系统会根据会话上下文窗口中存在的所有词元按轮次向您收费。会话上下文窗口包括新词元（当前轮次）+ 前几轮次中累积的所有词元。这意味着，系统会重新处理过去轮次的词元，并在每个新轮次中将其纳入考虑范围，直到达到您配置的上下文窗口大小。一个“轮次”是指用户的一次输入和模型的回答。
启用音频转写功能后，系统会按文本词元输出费率对转写生成的所有文本词元收费。

Vertex AI 模型优化器价格（实验版）*

Vertex AI Model Optimizer 为 Gemini 模型请求提供了一个元端点，简化了企业客户对 Gemini 的使用。使用此服务的客户无需指定使用 Flash、Pro 还是特定版本。他们只需提供可配置的设置（费用、质量或平衡），指明自己的偏好，Model Optimizer 就会通过将每个查询发送到最合适的模型，应用适合任务的适当智能水平。

Vertex AI Model Optimizer 采用动态定价。这意味着，每个词元的平均价格取决于用于完成任务的模型智能水平。因此，下面提供了价格示例，以根据您的配置设置说明可能出现的场景（请参阅下表）。Model Optimizer SKU 是 1 美元的 SKU，用作结算的购买单位，使用模型后仍按用量计费。

5:1 的 I/O 比率	示例 1 聊天机器人	注意：这些范围并非保证，各个客户的实际成效可能会有所不同
客户偏好	发送给 MO 的客户输入 token 数	发送给 MO 的客户输出 token 数	每百万词元的平均输入价格（高范围）	每百万个词元的平均输出价格（高范围）	每百万个词元的平均输入价格（低范围）	每百万个词元的平均输出价格（低范围）
费用	1000 万次	200 万	$0.63	$2.50	$0.16	$0.63
平衡	1000 万次	200 万	$1.26	$5.00	$0.63	$2.50
质量	1000 万次	200 万	$1.89	$7.50	$1.26	$5.00

1:20 I/O 比例	示例 2 内容生成
客户偏好	发送给 MO 的客户输入 token 数	发送给 MO 的客户输出 token 数	每百万词元的平均输入价格（高范围）	每百万个词元的平均输出价格（高范围）	每百万个词元的平均输入价格（低范围）	每百万个词元的平均输出价格（低范围）
费用	100 万	2000 万	$0.63	$2.50	$0.16	$0.63
平衡	100 万	2000 万	$1.26	$5.00	$0.63	$2.50
质量	100 万	2000 万	$1.89	$7.50	$1.26	$5.00

* 模型优化器是一项付费实验性产品，可能会将请求路由到 Vertex 上的 Gemini 实验版本。

其他 Gemini 模型

Gemini 2.0 或 Gemini 2.5 以外的所有 Gemini 模型均按模态计费，例如字符、图片、视频/音频秒数。文本输入按每 1,000 个字符的输入（提示）和每 1,000 个字符的输出（回复）计费。字符按 UTF-8 码位计数，计数中不包括空格，因此每个词元大约包含 4 个字符。生成过滤后响应的预测请求仅针对输入计费。在每个结算周期结束时，1 美分的小数部分 ($0.01) 会四舍五入到 1 美分。媒体输入按图片数量或秒数（视频）收费。如果您的请求因 400 或 500 错误而失败，则不会向您收取所用词元的费用。

型号	功能	类型	价格（=< 128K 输入 token）	价格（> 128K 输入词元）
Gemini 1.5 Flash	多模态	图片输入视频输入文本输入音频输入	$0.00002 / 图片 $0.00002 / 秒 $0.00001875 / 1000 个字符 $0.000002 / 秒	$0.00004 / 图片 $0.00004 / 秒 $0.0000375 / 1000 个字符 $0.000004 / 秒
		文本输出	$0.000075 / 1,000 个字符	$0.00015 / 1000 个字符
	调优*	训练代币	8 美元 / 百万 token
Gemini 1.5 Pro	多模态	图片输入视频输入文本输入音频输入	$0.00032875 / 图片 $0.00032875 / 秒 $0.0003125 / 1000 个字符 $0.00003125 / 秒	$0.0006575 / 图片 $0.0006575 / 秒 $0.000625 / 1000 个字符 $0.0000625 / 秒
		文本输出	$0.00125 / 1,000 个字符	$0.0025 / 1000 个字符
	调优*	训练代币	$80 / 100 万个词元
Gemini 1.0 Pro	多模态	图片输入视频输入文本输入	$0.0025/图片 $0.002/秒 $0.000125/1000 个字符
Gemini 1.0 Pro		文本输出	$0.000375/1000 个字符
使用 Google 搜索建立依据	文本	每 1,000 个接地提示 35 美元。接地提示是指提交给 Gemini 的请求，该请求会对 Google 搜索*执行一项或多项查询。即使向 Google 搜索发送了多个搜索查询，也只会针对接地提示收取一次费用。如果您每天需要超过 100 万条接地提示，请与您的客户支持团队联系。
适用于企业的 Web 接地	文本	每 1,000 个接地提示 45 美元。接地提示是指提交给 Gemini 的请求，该请求会对企业*的 Web 接地功能执行一个或多个查询。即使向 Google 搜索发送了多个搜索查询，也只会针对接地提示收取一次费用。如果您每天需要超过 100 万条接地提示，请与您的客户支持团队联系。
基于数据进行接地	文本	自 2025 年 6 月 16 日起，每 1,000 个请求 $2.5。

* 所列价格以美元 (USD) 为单位。如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。
* 如果查询上下文长度超过 128K，则所有 token 均按长上下文费率计费。
* Gemini 模型以批量模式提供，可享受 50% 的折扣。
* Gemini 1.0 Pro 仅支持最大 32K 的上下文窗口。
* PDF 按图片输入计费，一个 PDF 页面相当于一张图片。
* 调优后的模型端点的预测价格与基本模型相同。
* 仅当提示成功返回网络结果（即包含至少一个来自网络的接地支持网址的结果）时，才会对使用 Google 搜索建立依据和企业版网络接地功能计费。Gemini 模型使用费另行收取。

Imagen

借助 Imagen on Vertex AI，您可以生成新图片并根据您提供的文本提示修改图片，或使用您定义的遮盖区域以及许多其他功能仅修改图片的某些部分。

型号	功能	说明	输入	输出	价格
Imagen 4 Ultra	图片生成	生成图片	文本提示	图片	每张图片 $0.06
Imagen 4	提升	将生成的图片的分辨率提高到 2K、3K 和 4K	图片	图片	每张图片 $0.06
Imagen 4	图片生成	生成图片	文本提示	图片	每张图片 $0.04
Imagen 4 Fast	图片生成	生成图片	文本提示	图片	每张图片 $0.02
Imagen 3	图片生成	生成图片修改图片自定义图片	文本提示	图片	每张图片 $0.04
Imagen 3 Fast	图片生成	生成图片	文本提示	图片	每张图片 $0.02
Imagen 2, Imagen 1	图片生成	生成图片	文本提示	映像	每个图片 $0.020
Imagen 2, Imagen 1	图片修改	使用无蒙版或蒙版方法修改图片	图片/文字提示	映像	每个图片 $0.020
Imagen 1	提升	将生成的图片的分辨率提高到 2K 和 4K	映像	映像	每个映像 $0.003
Imagen 1	微调	启用用户提供的“主题”以用于 Imagen 提示（少样本训练）	带有文本标识符的主题，每个主题 4-8 张图片	微调后的模型（使用用户提供的主题进行训练后）	每节点时 $（Vertex AI 自定义训练价格）
Imagen	视觉标注	为图片生成短文本或长文本字幕	映像	文本字幕	$0.0015/图片
Imagen	视觉问答	根据引用图片的问题提供回答	图片/文字提示	文本回答	$0.0015/图片
Imagen	Product Recontext	在新的场景中重新构想产品	1-3 张同一产品的图片，以及描述所需场景的文本提示	图片	每张图片 $0.12
	Vertex 虚拟试穿	生成人物穿着不同服装的图片	1 张人物图片和 1 张服装图片	图片	每张图片 $0.06

所列价格以美元 (USD) 为单位。如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。

Veo

Veo 可生成各种主题和风格的超高质量视频，并能更好地理解真实世界的物理现象以及人类动作和表情的细微之处。

型号	功能	说明	输入	输出	输出分辨率	价格
Veo 3.1	生成视频 + 音频	根据文本提示或参考图片生成高质量视频，并同步添加语音/音效	文本/图片提示	视频 + 音频	720p、1080p	每秒 0.40 美元
Veo 3.1	视频生成	根据文本提示或参考图片生成高质量视频	文本/图片提示	视频	720p、1080p	$0.20/秒
Veo 3.1 Fast	生成视频 + 音频	根据文本提示或参考图片生成带有同步语音/音效的视频，速度更快	文本/图片提示	视频 + 音频	720p、1080p	$0.15/秒
Veo 3.1 Fast	视频生成	根据文本提示或参考图片更快地生成视频	文本/图片提示	视频	720p、1080p	$0.10/秒
Veo 3	生成视频 + 音频	根据文本提示或参考图片生成高质量视频，并同步添加语音/音效	文本/图片提示	视频 + 音频	720p、1080p	每秒 0.40 美元
Veo 3	视频生成	根据文本提示或参考图片生成高质量视频	文本/图片提示	视频	720p、1080p	$0.20/秒
Veo 3 Fast	生成视频 + 音频	根据文本提示或参考图片生成带有同步语音/音效的视频，速度更快	文本/图片提示	视频 + 音频	720p、1080p	$0.15/秒
Veo 3 Fast	视频生成	根据文本提示或参考图片更快地生成视频	文本/图片提示	视频	720p、1080p	$0.10/秒
Veo 2	视频生成	根据文本提示或参考图片生成视频	文本/图片提示	视频	720p	$0.50/秒
Veo 2	高级控制功能	通过开始帧和结束帧插值生成视频，延长生成的视频，并应用相机控制	文本/图片/视频提示	视频	720p	$0.50/秒

Lyria

Lyria 2 可生成高质量的器乐音乐，非常适合复杂的作曲和详细的创意探索，在这些场景中，细致入微的输出至关重要。

型号	功能	说明	输入	输出	价格
Lyria 2	音乐生成	根据文本提示生成音乐	文本提示	音乐	每 30 秒 $0.06

了解 AI 应用的嵌入费用

型号	类型	区域	每 1,000 个输入 token 的价格
Gemini Embedding	输入	全球	在线请求：$0.00015 批量请求：$0.00012
Gemini Embedding	输出	Global	在线请求：免费批量请求：免费

型号	类型	区域	每 1,000 个字符的价格
Embeddings for Text （不包括 Gemini Embedding）	输入	Global	在线请求：$0.000025 批量请求：$0.00002
Embeddings for Text （不包括 Gemini Embedding）	输出	Global	在线请求：免费批量请求：免费

型号	功能	说明	输入	输出	价格
multimodalembedding	Embeddings for Multimodal：文本	使用文本作为输入来生成嵌入	文本	Embeddings	$0.0002/1,000 个字符输入
	Embeddings for Multimodal：图片	使用图片作为输入来生成嵌入	映像	Embeddings	$0.0001/图片输入
	Embeddings for Multimodal：视频 Plus	Video Plus	视频	嵌入（每分钟视频最多 15 项嵌入）	每秒视频 $0.0020
	Embeddings for Multimodal：视频标准	Video Standard	视频	嵌入（每分钟视频最多 8 项嵌入）	每秒视频 $0.0010
	Embeddings for Multimodal：视频基础知识	Video Essential	视频	嵌入（每分钟视频最多 4 项嵌入）	每秒视频 $0.0005

开源模型	类型	每 1,000 个输入 token 的价格
multilingual-e5-small	输入：输出：批量输入：批量输出：	在线请求：$0.000015 在线请求：免费批量请求：$0.0000075 批量请求：免费
multilingual-e5-large	输入：输出：批量输入：批量输出：	在线请求：$0.000025 在线请求：免费批量请求：$0.0000125 批量请求：免费

所列价格以美元 (USD) 为单位。如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。

Vertex AI 代码补全的价格

Vertex AI 上的生成式 AI 按每 1,000 个字符的输入（提示）和每 1,000 个字符的输出（回复）计费。字符按 UTF-8 码位计数，计数中不包括空格。在预览版阶段，费用享受 100% 的折扣。生成过滤后响应的预测请求仅针对输入计费。在每个结算周期结束时，1 美分的小数部分 ($0.01) 会四舍五入到 1 美分。

模型	类型	区域	每 1,000 个字符的价格
Codey for Code Completion	输入	全球	在线请求：$0.00025
Codey for Code Completion	输出	全球	在线请求：$0.0005

所列价格以美元 (USD) 为单位。如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。

翻译（文本）

使用 Vertex AI API 和翻译 LLM 来翻译文本。与经典翻译模型相比，LLM 翻译往往更流畅、更像人说的话，但支持的语言更少（了解详情）。

型号	方法	用量	每 100 万个字符的价格
LLM	文本翻译^*	每月输入字符数	每 100 万个字符 $10^*
	文本翻译^*	每月输出字符数	每 100 万个字符 $10^*

所列价格以美元 (USD) 为单位。如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。
^*价格按模型处理的字符数计算。如需详细了解会对哪些字符计费，请参阅计费字符

显式缓存的上下文缓存存储价格

型号	功能	类型	价格（/100 万个词元） <= 20 万个输入词元	价格（/100 万个 token） > 20 万个输入 token
Gemini 3 Pro	上下文缓存存储空间	输入（文本、图片、视频、音频）	$4.5 (/M Tok/小时)	$4.5 (/M Tok/小时)
Gemini 2.5 Pro	上下文缓存存储空间	输入（文本、图片、视频、音频）	$4.5 (/M Tok/小时)	$4.5 (/M Tok/小时)
Gemini 2.5 Flash	上下文缓存存储空间	输入（文本、图片、视频、音频）	$1 (/百万词元/小时)	$1 (/百万词元/小时)
Gemini 2.5 Flash Lite	上下文缓存存储空间	输入（文本、图片、视频、音频）	$1 (/百万词元/小时)	$1 (/百万词元/小时)

Gemini 2.0 模型

基于 token 的定价

模型	类型	存储（百万词元-小时）	价格
Gemini 2.0 Flash
	100 万个输入 token	$1.00	$0.0375
	100 万个输入音频 token	$1.00	$0.25
	100 万个输出文本 token	不适用	不适用
Gemini 2.0 Flash Lite
	100 万个输入 token	$1.00	$0.01875
	100 万个输入音频 token	$1.00	$0.01875
	100 万个输出文本 token	不适用	不适用

基于模式的定价

以下模态价格仅供参考，基于平均用例计算。实际结算将仅基于词元：

4 个字符大约会生成 1 个文本词元（包括空格）。

对于 1024x1024 的图片，它会消耗 1290 个词元。每张图片的词元数因图片分辨率而异。如需详细了解如何计算词元，请参阅我们的文档。

视频输入以每秒一帧的采样率消耗每秒 258 个词元。视频（含音频）既要按视频 token 计费，也要按音频 token 计费。

音频输入每秒消耗 25 个 token，不包括时间戳。

模型	类型	存储（模态小时）	价格
Gemini 2.0 Flash
	输入文本（美元/百万字符）	$0.25	$0.009375
	输入图片（$/张）	$0.00129	$0.000048375
	输入视频（美元/秒）	$0.000258	$0.000009675
	输入音频（美元/秒）	$0.000025	$0.00000625
	输出文本（美元/百万字符）	不适用	不适用
Gemini 2.0 Flash Lite
	输入文本（美元/百万字符）	$0.25	$0.0046875
	输入图片（$/张）	$0.00129	$0.0000241875
	输入视频（美元/秒）	$0.000258	$0.000009675
	输入音频（美元/秒）	$0.000258	$0.0000048375
	输出文本（美元/百万字符）	不适用	不适用
使用 Google 搜索建立依据	Gemini 2.0 Flash 每天最多可处理 1,500 个接地请求，无需额外付费。每天超过 1,500 次的接地请求按每 1,000 次请求 35 美元计费（每天最多 100 万次请求）。如果您每天需要超过 100 万次请求，请与您的客户支持团队联系。
适用于企业的 Web 接地	自 2025 年 5 月 5 日起，每 1,000 个请求 45 美元（每天最多 100 万个请求）。如果您每天需要超过 100 万次请求，请与您的客户支持团队联系。

* 所列价格以美元 (USD) 为单位。如果您使用非美元货币付费，请参阅 Cloud Platform SKU 上以您的币种列出的价格。
* PDF 按图片输入计费，一个 PDF 页面相当于一张图片。
* 调优后的模型端点的预测价格与基本模型相同。
* 仅当请求返回的结果中包含至少一个来自网络的接地支持网址时，才会针对使用 Google 搜索建立依据的请求收费。此外，还需支付标准 Gemini 模型使用费。

预配的吞吐量

预配吞吐量可确保满足您的生成式 AI 需求，并通过生成式 AI 扩缩单元 (GSU) 进行交易。如需详细了解每个 GSU 提供的吞吐量，请点击此处，并使用我们的在线估算器（点击此处）。

时长	每个 GSU 的价格	每
1 周提交	$1,200	周
1 个月承诺期	$2,700	月
3 个月承诺期	$2,400	月
1 年期承诺	$2,000	月

费用计算示例

用户需要确保可以使用 gemini-2.0-flash 支持每秒 10 次查询 (QPS)，每次查询的输入为 1,000 个文本 token 和 500 个音频 token，并接收 300 个文本 token 的输出。

根据吞吐量和消耗率表格，对于 gemini-2.0-flash，我们知道输入文本 token 的消耗率为 1 个 token，输入音频 token 的消耗率为 7 个 token，输出文本 token 的消耗率为 4 个 token。

用户的输入 token 总数为 1,000*（每个输入文本 token 1 个 token）+ 500*（每个输入音频 token 7 个 token）= 4,500 个按消耗调整后的输入 token。用户的总输出 token 数为 300 *（每个输出文本 token 4 个 token）= 1,200 个按消耗调整后的输出 token。将它们相加，得到 4,500 个按消耗调整后的输入 token + 1,200 个按消耗调整后的输出 token = 每次查询 5,700 个总 token。

将每次查询的 token 总数乘以 QPS，即可得出每秒的总 token 数：5,700 个 token/查询 * 10 QPS = 57,000 个 token/秒。

将此值除以每 GSU 每秒的总吞吐量，得到每秒 57,000 个总 token ÷ 每 GSU 每秒 3,360 吞吐量 = 16.96 GSU。此模型的最小 GSU 购买增量为 1，因此用户需要 17 个 GSU。

如果用户想要以这种吞吐量持续运行 1 周，则需要支付 $1,200 * 17 GSU = 每周 $20,400。如果他们想以这种吞吐量运行 1 个月，则费用为 $2,700 * 17 GSU = 每月 $45,900。如果他们想将此吞吐量维持 3 个月，则每月需要支付 $2,400 * 17 GSUs = $40,800。最后，如果他们想将此吞吐量维持 1 年，则每月需要支付 $2,000 * 17 GSUs = $34,000。

模型调优

模型调优是针对任务自定义大型模型的有效方法。这是提高模型质量和效率的关键步骤。模型调优具有以下优势：

针对您的特定任务提供更高的质量
提高模型稳健性
提示较短，因此推理延迟时间和费用更低

调优按每百万个训练 token 收费。token 训练的计算方法是将训练数据集中的 token 总数乘以周期数。对于模型推理，Gemini 调优后模型端点的预测价格与基本模型相同。

型号	类型	价格（/100 万个训练词元）
Gemini 2.5 Pro	监督式微调	$25
Gemini 2.5 Flash	监督式微调偏好调优	$5
Gemini 2.5 Flash Lite	监督式微调偏好调优	$1.5
Gemma 3 27B IT	监督式微调	$6.83
Llama 3.1 8B	监督式微调	$0.67
Llama 3.2 1B	监督式微调	$0.28
Llama 3.2 3B	监督式微调	$0.61
Llama 3.3 70B	监督式微调	$6.72
Llama 4 Scout 17B 16E	监督式微调	$5.77
Qwen 3 32B	监督式微调	$6.57

* token 训练的计算方法是将训练数据集中的 token 总数乘以周期数。
* Gemini 调优模型端点的预测价格与基础模型相同。

比较 Vertex AI 上的合作伙伴模型的价格

合作伙伴模型是由 Google 合作伙伴开发的一系列精选生成式 AI 模型。合作伙伴模型以托管式 API 的形式提供。如需了解详情，请参阅合作伙伴模型概览。以下部分列出了 Google 合作伙伴模型的价格详情。

AI21 Lab 的模型

型号	价格
Jamba 1.5 Large（已弃用）	输入：$2 / 百万 token 输出：$8 / 百万 token
Jamba 1.5 Mini（已弃用）	输入：$0.20 / 百万 token 输出：$0.40 / 百万 token

Anthropic 的 Claude 模型

采用区域定价的模型

全球

型号	价格（/100 万个 token）< 20 万个输入 token	价格（/100 万个 token）>= 20 万个输入 token
Claude Opus 4.5	输入：$5.00 输出：$25.00 批量输入：$2.50 批量输出：$12.50 5 分钟缓存写入：$6.25 1 小时缓存写入：$10.00 缓存命中：$0.50 5 分钟批量缓存写入：$3.125 1 小时批量缓存写入：$5.00 批量缓存命中：$0.25
Claude Sonnet 4.5	输入：$3.00 输出：$15.00 批量输入：$1.50 批量输出：$7.50 5 分钟缓存写入：$3.75 1 小时缓存写入：$6.00 缓存命中：$0.30 批量缓存写入：$1.88 批量缓存命中：$0.15	输入：$6.00 输出：$22.50 批量输入：$3.00 批量输出：$11.25 5 分钟缓存写入：$7.50 1 小时缓存写入：$12.00 缓存命中：$0.60 批量缓存写入：$3.75 批量缓存命中：$0.30
Claude Haiku 4.5	输入：$1.00 输出：$5.00 批量输入：$0.50 批量输出：$2.50 5 分钟缓存写入：$1.25 1 小时缓存写入：$2.00 缓存命中：$0.10 批量缓存写入：$0.625 批量缓存命中：$0.05

us-east5

型号	价格（/100 万个 token）< 20 万个输入 token	价格（/100 万个 token）>= 20 万个输入 token
Claude Opus 4.5	输入：$5.50 输出：$27.50 批量输入：$2.75 批量输出：$13.75 5 分钟缓存写入：$6.875 1 小时缓存写入：$11.00 缓存命中：$0.55 5 分钟批量缓存写入：$3.438 1 小时批量缓存写入：$5.50 批量缓存命中：$0.275
Claude Sonnet 4.5	输入：$3.30 输出：$16.50 批量输入：$1.65 批量输出：$8.25 5 分钟缓存写入：$4.13 1 小时缓存写入：$6.60 缓存命中：$0.33 批量缓存写入：$2.06 批量缓存命中：$0.17	输入：$6.60 输出：$24.75 批量输入：$3.30 批量输出：$12.38 5 分钟缓存写入：$8.25 1 小时缓存写入：$13.20 缓存命中：$0.66 批量缓存写入：$4.13 批量缓存命中：$0.33
Claude Haiku 4.5	输入：$1.10 输出：$5.50 批量输入：$0.55 批量输出：$2.75 5 分钟缓存写入：$1.375 1 小时缓存写入：$2.20 缓存写入：$1.375 缓存命中：$0.11 批量缓存写入：$0.688 批量缓存命中：$0.055

europe-west1

型号	价格（/100 万个 token）< 20 万个输入 token	价格（/100 万个 token）>= 20 万个输入 token
Claude Opus 4.5	输入：$5.50 输出：$27.50 批量输入：$2.75 批量输出：$13.75 5 分钟缓存写入：$6.875 1 小时缓存写入：$11.00 缓存命中：$0.55 5 分钟批量缓存写入：$3.438 1 小时批量缓存写入：$5.50 批量缓存命中：$0.275
Claude Sonnet 4.5	输入：$3.30 输出：$16.50 批量输入：$1.65 批量输出：$8.25 5 分钟缓存写入：$4.13 1 小时缓存写入：$6.60 缓存命中：$0.33 批量缓存写入：$2.06 批量缓存命中：$0.17	输入：$6.60 输出：$24.75 批量输入：$3.30 批量输出：$12.38 5 分钟缓存写入：$8.25 1 小时缓存写入：$13.20 缓存命中：$0.66 批量缓存写入：$4.13 批量缓存命中：$0.33
Claude Haiku 4.5	输入：$1.10 输出：$5.50 批量输入：$0.55 批量输出：$2.75 5 分钟缓存写入：$1.375 1 小时缓存写入：$2.20 缓存命中：$0.11 批量缓存写入：$0.688 批量缓存命中：$0.055

asia-southeast1

型号	价格（/100 万个 token）< 20 万个输入 token	价格（/100 万个 token）>= 20 万个输入 token
Claude Opus 4.5	输入：$5.50 输出：$27.50 批量输入：$2.75 批量输出：$13.75 5 分钟缓存写入：$6.875 1 小时缓存写入：$11.00 缓存命中：$0.55 5 分钟批量缓存写入：$3.438 1 小时批量缓存写入：$5.50 批量缓存命中：$0.275
Claude Sonnet 4.5	输入：$3.30 输出：$16.50 批量输入：$1.65 批量输出：$8.25 5 分钟缓存写入：$4.13 1 小时缓存写入：$6.60 缓存命中：$0.33 批量缓存写入：$2.06 批量缓存命中：$0.17	输入：$6.60 输出：$24.75 批量输入：$3.30 批量输出：$12.38 5 分钟缓存写入：$8.25 1 小时缓存写入：$13.20 缓存命中：$0.66 批量缓存写入：$4.13 批量缓存命中：$0.33

asia-east1

型号	价格（/100 万个 token）< 20 万个输入 token	价格（/100 万个 token）>= 20 万个输入 token
Claude Haiku 4.5	输入：$1.10 输出：$5.50 批量输入：$0.55 批量输出：$2.75 5 分钟缓存写入：$1.375 1 小时缓存写入：$2.20 缓存写入：$1.375 缓存命中：$0.11 批量缓存写入：$0.688 批量缓存命中：$0.055

* 如果查询输入上下文的词元数大于或等于 20 万，则所有词元（输入和输出）均按长上下文费率计费。

所有区域的价格都相同的模型

型号	价格（/100 万个 token）< 20 万个输入 token	价格（/100 万个 token）>= 20 万个输入 token
Claude Opus 4.1	输入：$15 输出：$75 批量输入：$7.50 批量输出：$37.50 5 分钟缓存写入：$18.75 1 小时缓存写入：$30 缓存命中：$1.50 批量缓存写入：$9.375 批量缓存命中：$0.75	不适用
Claude Opus 4	输入：$15 输出：$75 批量输入：$7.50 批量输出：$37.50 5 分钟缓存写入：$18.75 1 小时缓存写入：$30 缓存命中：$1.50 批量缓存写入：$9.375 批量缓存命中：$0.75	不适用
Claude Sonnet 4	输入：$3 输出：$15 批量输入：$1.50 批量输出：$7.50 5 分钟缓存写入：$3.75 1 小时缓存写入：$6.00 缓存命中：$0.30 批量缓存写入：$1.875 批量缓存命中：$0.15	输入：$6 输出：$22.50 批量输入：$3 批量输出：$11.25 5 分钟缓存写入：$7.50 1 小时缓存写入：$12.00 缓存命中：$0.60 批量缓存写入：$3.75 批量缓存命中：$0.30
Claude 3 Haiku	输入：$0.25 输出：$1.25 5 分钟缓存写入：$0.30 1 小时缓存写入：$0.50 缓存命中：$0.03	不适用
Claude 3.5 Haiku（已弃用）	输入：$0.80 输出：$4 批量输入：$0.40 批量输出：$2 5 分钟缓存写入：$1 1 小时缓存写入：$1.60 缓存命中：$0.08 批量缓存写入：$0.50 批量缓存命中：$0.04	不适用
Claude 3.7 Sonnet（已弃用）	输入：$3 输出：$15 批量输入：$1.50 批量输出：$7.50 缓存写入：$3.75 缓存命中：$0.30 批量缓存写入：$1.875 批量缓存命中：$0.15	不适用
Claude 3.5 Sonnet v2（已弃用）	输入：$3 输出：$15 批量输入：$1.50 批量输出：$7.50 缓存写入：$3.75 缓存命中：$0.30 批量缓存写入：$1.875 批量缓存命中：$0.15	不适用
Claude 3.5 Sonnet（已弃用）	输入：$3 输出：$15 缓存写入：$3.75 缓存命中：$0.30	不适用
Claude 3 Opus（已弃用）	输入：$15 输出：$75 缓存写入：$18.75 缓存命中：$1.50	不适用

* 如果查询输入上下文的词元数大于或等于 20 万，则所有词元（输入和输出）均按长上下文费率计费。

工具价格

工具	价格
Web 搜索请求	每 1,000 次搜索$10 支持的模型：Claude Haiku 4.5、Claude Sonnet 4.5、Claude Sonnet 4、Claude Opus 4.1 和 Claude Opus 4。

* 如果查询输入上下文的词元数大于或等于 20 万，则所有词元（输入和输出）均按长上下文费率计费。

Deepseek 的模型

型号	价格
DeepSeek-V3.1	输入：$0.60 / 百万个 token 输出：$1.70 / 百万个 token 批量输入：$0.30 / 百万个 token 批量输出：$0.85 / 百万个 token
DeepSeek-V3.2 *	输入：$0.56 / 百万 token 输出：$1.68 / 百万 token 批量输入：$0.28 / 百万 token 批量输出：$0.84 / 百万 token
DeepSeek-R1 (0528)	输入：$1.35 / 百万个词元输出：$5.40 / 百万个词元批量输入：$0.675 / 百万个词元批量输出：$2.70 / 百万个词元
DeepSeek-OCR	输入：$0.30 / 百万个词元（或 $0.0003/页）输出：$1.20 / 百万个词元（或 $0.00012/页）

2025 年 12 月 17 日之前可免费使用。

MiniMax 的模型

型号	价格
MiniMax-M2	输入：$0.30 / 百万 token 输出：$1.20 / 百万 token

Moonshot 的模型

型号	价格
Kimi-K2-Thinking	输入：$0.60 / 百万个词元输出：$2.50 / 百万个词元

Qwen 的模型

型号	价格
Qwen3-Next-80B-Thinking	输入：$0.15 / 百万 token 输出：$1.20 / 百万 token
Qwen3-Next-80B-Instruct	输入：$0.15 / 百万 token 输出：$1.20 / 百万 token
Qwen3-Coder-480B-A35B-Instruct	输入：$0.22 / 百万 token 输出：$1.80 / 百万 token 批量输入：$0.11 / 百万 token 批量输出：$0.90 / 百万 token
Qwen3-235B-A22B-Instruct-2507	输入：$0.22 / 百万 token 输出：$0.88 / 百万 token 批量输入：$0.11 / 百万 token 批量输出：$0.44 / 百万 token

OpenAI 的模型

型号	价格
gpt-oss-120b	输入：$0.09 / 百万个 token 输出：$0.36 / 百万个 token 批量输入：$0.045 / 百万个 token 批量输出：$0.18 / 百万个 token
gpt-oss-20b	输入：$0.07 / 百万 token 输出：$0.25 / 百万 token 批量输入：$0.035 / 百万 token 批量输出：$0.125 / 百万 token

Meta 的 Llama 模型

型号	价格
Llama 3.1 405B	输入：$5.00 / 百万 token 输出：$16.00 / 百万 token
Llama 3.3 70B	输入：$0.72 / 百万 token 输出：$0.72 / 百万 token 批量输入：$0.36 / 百万 token 批量输出：$0.36 / 百万 token
Llama 4 Scout	输入：$0.25 / 百万 token 输出：$0.70 / 百万 token 批量输入：$0.125 / 百万 token 批量输出：$0.35 / 百万 token
Llama 4 Maverick	输入：$0.35 / 百万个词元输出：$1.15 / 百万个词元批量输入：$0.175 / 百万个词元批量输出：$0.575 / 百万个词元

Mistral AI 的模型

型号	价格
Mistral OCR (25.05)	输入：$0.0005 / 百万个 token（或 $0.0005/页）输出：$0.0005 / 百万个 token（或 $0.0005/页）
Mistral Medium 3	输入：$0.40 / 百万个词元输出：$2.00 / 百万个词元
Mistral Small 3.1 (25.03)	输入：$0.10 / 百万个 token 输出：$0.30 / 百万个 token
Mistral Large (24.11)（已弃用）	输入：$2.00 / 百万 token 输出：$6.00 / 百万 token
Codestral 2	输入：$0.30 / 百万个词元输出：$0.90 / 百万个词元
Codestral (25.01)（已弃用）	输入：$0.30 / 百万个词元输出：$0.90 / 百万个词元

申请定制报价

Google Cloud 采用随用随付的价格模式，您只需为实际使用的服务付费。请与我们的销售团队联系，获取为贵组织量身定制的报价。

联系销售团队