Cloud Text-to-Speech

利用机器学习技术将文本转换为语音

免费试用

查看此产品的文档

高保真度的语音合成

借助 Google Cloud Text-to-Speech,开发者能够将文本合成为自然而逼真的语音(共有 30 种语音,并有多种语言和语言变体可供选择)。它运用了 DeepMind 在 WaveNet 上的突破性研究和 Google 强大的神经网络,可提供高保真音频。这一简单易用的 API 可让您横跨众多应用和设备与用户实现生动真切的互动。

高保真度的语音合成

立即将文本转换为语音

输入所需内容,选择一种语言,然后点击“Speak It”即可收听。

由 Google 的机器学习技术驱动

运用先进的深度学习神经网络算法将文本合成为多种语言的不同语音。我们的神经网络以 Google 深厚的语音合成专业知识为基础打造而成。

Google 的机器学习技术

独享 DeepMind 打造的 WaveNet 语音技术

DeepMind 在机器学习模型的研究上取得了突破性成果,其生成的仿人类语音更加逼真自然,将仿人类语音与真实人类声音之间的差异缩小了 50% 以上。Cloud Text-to-Speech 让客户可以独享多种 WaveNet 语音,并会逐步添加更多语音。

DeepMind 打造的 WaveNet 语音

从 30 多种语音中选择

Google Cloud Text-to-Speech 提供 30 多种语音(涵盖 14 种语言及语言变体),开发者可从中选择最适合其应用的语音。

从 30 多种语音中选择

与现有应用和设备轻松集成

Cloud Text-to-Speech 支持可发送 REST 或 gRPC 请求的任何应用或设备,包括手机、PC、平板电脑和物联网设备(例如汽车、电视机、音响设备)。

与现有应用和设备轻松集成

支持许多常见使用场景

Google Cloud Text-to-Speech 是一种易于使用的 API,也是一种灵活的解决方案,适合为各种使用场景打造自然而生动的体验。常见的使用场景包括呼叫中心自动化、物联网设备的交互式响应,或将适合讲述的文本转换为音频。

支持许多常见使用场景

Cloud Text-to-Speech 特性

多语言
支持 30 多种语音(涵盖 14 种语言和语言变体),并即将支持更多语音。
WaveNet 语音
独享 DeepMind 打造的多语言 WaveNet 语音,实现最自然的语音效果。
文本和 SSML 支持
使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音指令,以自定义您的语音。
讲话速度调整
自定义您的讲话速度,最多可使其比正常语速快或慢 4 倍。
音高调节
自定义所选语音的音高,最多可高于或低于默认输出 20 个半音。
音量增益控制
将输出音量最高调至 16db 或最低调至 -96db。
音频格式灵活性
从多种音频格式中选择,包括 mp3、Linear16 和 Ogg Opus。
音频配置文件测试版
根据要用于播放语音的音响设备类型(如耳机或电话线路)进行优化。

CLOUD Text-to-Speech 价格

高保真度的语音合成

Cloud Speech-to-Text 以 100 万个已处理文本字符为单位收取费用(前 100 万个字符免费)。如需了解详情,请参阅我们的价格指南

功能 每月免费配额 付费用量
标准(非 WaveNet)语音 0 至 400 万个字符 $4.00 USD/百万字符
WaveNet 语音 0 至 100 万个字符 $16.00 USD/百万字符
如果您使用非美元货币付费,请参阅 Cloud Platform SKU 上以您的币种列出的价格。
此页面上列出的一项产品或功能目前为测试版。如需详细了解我们的产品发布阶段,请点击此处

发送以下问题的反馈:

此网页
Cloud Text-to-Speech API