Cloud Text-to-Speech测试版

利用机器学习技术将文字转换为语音。

免费试用

高准确度的语音合成

借助 Google Cloud Text-to-Speech,开发者能够将文字合成自然而逼真的语音(共有 30 种语音,并有多种语言和语言变体可供选择)。它运用了 DeepMind 在 WaveNet 和 Google 强大的神经网络方面的突破性研究,可提供高保真音频。这一简单易用的 API 可让您跨越多个应用和设备与用户实现逼真的互动。

高准确度的语音合成

立即将文字转换为语音

输入所需内容,选择一种语言,然后点击“Speak It”即可收听。

由 Google 的机器学习技术驱动

运用先进的深度学习神经网络算法将文字合成为多种语音和语言。我们的神经网络是基于 Google 的语音合成专业技术构建的。

Google 的机器学习

对 DeepMind 提供的 WaveNet 语音的独占访问

DeepMind 在机器学习模型的研究上取得了突破性成果,其生成的仿人类语音更加逼真自然,从而将仿人类语音与真实人类声音之间的差异缩小了 50% 以上。Cloud Text-to-Speech 提供对多种 WaveNet 语音的独占访问权,并且会随着时间的推移逐步添加更多语音。

DeepMind 提供的 WaveNet 语音

从 30 多种语音中选择

Google Cloud Text-to-Speech 提供了 30 种语音和 14 种语言及语言变体供人们选择,开发者可从中选择最适合其应用的语音。

从 30 多种语音中选择

与现有应用和设备轻松集成

Cloud Text-to-Speech 支持可发送 REST 或 gRPC 请求的任何应用或设备,包括手机、PC、平板电脑和物联网设备(例如汽车、电视机、音响设备)。

与现有应用和设备轻松集成

支持许多常见使用场景

Google Cloud Text-to-Speech 是一种易于使用的 API,也是一种灵活的解决方案,可针对各种使用场景打造自然而逼真的体验。常见的使用场景包括呼叫中心自动化、物联网设备的交互式响应,或将文字转换为可作为音频使用的音频。

支持许多常见使用场景

Cloud Text-to-Speech 特性

多语言
支持 30 多种语音以及 14 种语言和语言变体,即将支持更多语言。
WaveNet 语音
对 DeepMind WaveNet 语音(可提供最自然的语音)的独占多语言访问。
文本和 SSML 支持
使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音指令,以自定义您的语音。
讲话速度调整
自定义您的讲话速度,使其比正常语速快或慢 4 倍。
音高调节
自定义所选语音的音高,最多 20 个半音,可以高于或低于默认输出。
音量增益控制
将输出音量最高调至 16db 或最低调至 -96db。
音频格式灵活性
从多种音频格式中进行选择,包括 mp3、Linear16 和 Ogg Opus。
音频配置文件测试版
针对打算从中播放语音的音响设备的类型(如耳机或电话线)进行优化。

CLOUD Text-to-Speech 价格

高传真度的语音合成

Cloud Speech-to-Text 以 100 万个已处理文本字符为单位收取费用(前 100 万个字符免费)。如需了解详情,请参阅我们的价格指南

功能 每月免费配额 付费使用量
标准(非 WaveNet)语音 0 至 400 万个字符 $4.00 USD/百万字符
WaveNet 语音 0 至 100 万个字符 $16.00 USD/百万字符
如果您使用非美元货币支付,则请参阅在 Cloud Platform SKU 上以您的币种列出的价格。
此页面上列出的产品或功能处于测试版阶段。如需详细了解我们的产品发布阶段,请点击此处

发送以下问题的反馈:

此网页
Cloud Text-to-Speech API