Text-to-Speech 价格

Text-to-Speech 的价格取决于每月发送给服务并合成为音频的字符数。您必须启用结算功能才能使用 Text-to-Speech,并且如果您的用量超过了每月允许的免费字符数,系统会自动向您收费。如需了解如何跟踪字符总数,请参阅 Monitoring API 用量。价格是按字符计算的。

系统会按输入字符串中的字符总数(包括空格和换行符)计费。所有语音合成标记语言 (SSML) 标记(<mark> 标记除外)也包含在字符计数内。

价格表

Gemini-TTS

Text-to-Speech 技术的最新演变,可使用基于文本的提示对生成的音频进行精细控制。

模型

免费用量限额

达到免费用量限制后的价格

Gemini 2.5 Flash TTS

不可用

输入 token:每 100 万个文本 token $0.50

(sku: 242A-EA16-C1EC)

输出 token:每 100 万个音频 token $10.00*

(sku: 9228-79EF-B162)

Gemini 2.5 Pro TTS

不可用

输入 token:每 100 万个文本 token $1.00

(sku: 8FF1-7E5B-5BB7)

输出 token:每 100 万个音频 token $20.00*

(sku: DCF3-CB17-8262)


* 音频 token 对应于每秒音频 25 个 token

最新 TTS 模型

我们最新的 TTS 模型由先进的 LLM 提供支持,可为各种应用场景提供出色的真实感和情感共鸣。

模型


免费用量限额

达到免费用量限制后的价格

Chirp 3:高清语音

(sku:F977-2280-6F1B)

0 至 100 万个字符

每字符 US$0.00003(每 100 万个字符 US$30)

即时自定义语音

(sku:A247-37D7-C094)

未提供此功能

每字符 US$0.00006(每 100 万字符 US$60)


旧版 TTS 模型

模型

免费用量限额

达到免费用量限制后的价格

WaveNet 语音

(sku:9D01-5995-B545)

0 至 400 万个字符

每字符 US$0.000004(每 100 万字符 US$4)

Studio 语音

(sku:84AB-48C0-F9C3)

0 至 100 万个字符

每字符 US$0.00016(每 100 万字符 US$160)

标准语音

(sku:9D01-5995-B545)

0 至 400 万个字符

每字符 0.000004 美元(每 100 万个字符 4 美元)

Neural2 语音

(sku:FEBD-04B6-769B)

0 至 100 万个字符

每字符 0.000016 美元(每 100 万个字符 16 美元)

Polyglot(预览版)语音

(sku:FEBD-04B6-769B)

0 至 100 万个字符

每字符 0.000016 美元(每 100 万个字符 16 美元)

注意:对于 WaveNet 和标准语音,字符数会等于或小于文本所占用的字节数。这其中包括字母数字字符、标点符号和空格。在某些字符集中,一个字符要占用多个字节。例如,以 UTF-8 编码的每个日语 (ja-JP) 字符通常会占用不止一个字节。在这种情况下,您仅需支付一个字符的费用,而不必按照多个字节付费。

Google Cloud 价格

如果您在使用 Text-to-Speech 的同时还使用了其他 Google Cloud 资源(例如 Google App Engine 实例),则您还需要支付使用这些服务所产生的费用。请参阅 Google Cloud 的价格计算器,根据当前费率确定其他费用。

后续步骤

申请自定义报价

Google Cloud 采用随用随付的价格模式,您只需为实际使用的服务付费。请与我们的销售团队联系,获取为贵组织量身定制的报价。