高保真度的语音合成
Google Cloud Text-to-Speech 可将文字转换为 180 多种宛如真人发声的语音,涵盖 30 多种语言和语言变体。它运用了语音合成领域的突破性研究成果 (WaveNet) 和 Google 强大的神经网络,可提供高保真音频。这一简单易用的 API 可帮助您与用户进行自然逼真的互动,并可为客户服务、设备互动和其他应用带来巨大变革。
立即将文字转换为语音
输入所需内容,选择一种语言,然后点击“Speak It”即可收听。
由 Google 的机器学习技术驱动
运用先进的深度学习神经网络算法将文字合成为多种语言的不同语音。我们的神经网络以 Google 深厚的语音合成专业知识为基础打造而成。
180 多种语音供您选择
Google Cloud Text-to-Speech 提供了 180 多种语音(涵盖 30 多种语言及语言变体),开发者可从中选择最适合其应用的语音。
独享 WaveNet 技术
DeepMind 在机器学习模型的研究上取得了突破性成果,其生成的仿人类语音更加逼真自然,将仿人类语音与真实人类语音之间的差异缩小了 70%。Cloud Text-to-Speech 让客户可以独享 90 多种 WaveNet 语音,并会逐步添加更多语音。
与现有应用和设备轻松集成
Cloud Text-to-Speech 支持可发送 REST 或 gRPC 请求的任何应用或设备,包括手机、PC、平板电脑和物联网设备(例如汽车、电视机、音响设备)。
支持众多常见使用场景
Google Cloud Text-to-Speech 是一种易于使用的 API,也是一种灵活的解决方案,可以为多种使用场景打造自然而生动的体验。常见的使用场景包括呼叫中心自动化、物联网设备的交互式响应,或者将文字转换为音频加以使用。
Cloud Text-to-Speech 特性
- 多语言
- 支持 180 种语音(涵盖 30 多种语言和语言变体),并且即将支持更多语音。
- WaveNet 语音
- 独享 DeepMind 打造的多语言 WaveNet 语音,实现最自然的语音效果。
- 文本和 SSML 支持
- 使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音指令,实现语音自定义。
- 讲话速度调整
- 自定义您的语音讲话速度,最多可加快至正常语速的 4 倍,或减慢至四分之一。
- 音高调节
- 自定义所选语音的音高,最多可高于或低于默认输出 20 个半音。
- 音量增益控制
- 将输出音量最高调至 16db 或最低调至 -96db。
- 音频格式灵活性
- 多种音频格式可供选择,包括 mp3、Linear16 和 Ogg Opus。
- 音频配置文件
- 根据要用于播放语音的音响设备类型(如耳机或电话线路)进行优化。
Cloud Text-to-Speech 价格
高保真度的语音合成
系统会以 100 万个文本字符为单位收取 Cloud Speech-to-Text 的文本转换费用(在免费层级配额用尽后)。如需了解详情,请参阅我们的价格指南。
| 功能 | 每月免费层级 | 付费用量 |
|---|---|---|
| 标准(非 WaveNet)语音 | 0 至 400 万个字符 | $4.00 USD/百万字符 |
| WaveNet 语音 | 0 至 100 万个字符 | $16.00 USD/百万字符 |