使用由 Google 的精华 AI 技术提供支持的 API,将文字转换为自然而逼真的语音。
新客户可获得最高 $300 赠金,用于试用 Text-to-Speech 和其他 Google Cloud 产品。
通过自然逼真的智能回复改善客户互动
让用户与您的设备和应用中的语音界面进行互动
根据用户首选的语音和语言对沟通方式进行个性化设置
优势
部署 Google 的突破性技术,生成宛如真人发声的语音。该 API 基于 DeepMind 的语音合成专业技术打造而成,可提供接近真人音质的语音。
您可以从涵盖 50 多种语言和语言变体的 380 多种语音中进行选择,包括中文普通话、印地语、西班牙语、阿拉伯语、俄语等。挑选最适合您的用户和应用的语音。
打造一种独特的语音来在所有客户接触点代表您的品牌,而不是与其他组织使用相同的语音。
演示
输入所需内容,选择一种语言,然后点击“Speak It”即可听到相应语音。
主要特性
使用基于 AudioLM 的最新自发式对话语音构建富有吸引力的客服。这些语音具有以下好处:高品质的音频、低延迟流式传输和自然流畅的说话方式;同时融合了人类说话不连贯的特点并具有准确的语调。
在录音室级环境中录制专业解说内容,让您的听众耳目一新。务必要戴上头戴式耳机。
现在,您可以生成涉及多位说话者的对话,以打造最具互动性的场景。
借助以推进自定义语音功能的最新研究成果打造的即用型语音,实现国际化的语音体验。
用您自己录制的音频来训练一个自定义语音模型,为组织制作听起来更加自然的独特语音。您可以定义和选择适合组织的语音配置文件,根据语音需求的变化来快速调整,而不必录制新的语句。
使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音规则,实现语音自定义。
文档
使用场景
基于 Dialogflow 的语音聊天机器人可动态生成语音,而非播放预先录制的静态音频,从而帮助您提供更好的客服语音体验。用更加亲切和个性化的高品质合成语音与来电者互动。
让您的设备作为文字阅读器发出类似真人的语音,为用户带来自然而逼真的交流体验。结合 Speech-to-Text 和 Natural Language 打造端到端语音界面,并通过轻松且富有吸引力的互动提升用户体验。
轻松让设备读出 EPG 的文字内容,为您的客户提供更好的用户体验,并满足您的服务和应用的无障碍功能要求。试用 EPG 演示版。
在 EPG 中轻松实现文字转语音功能,为您的客户提供更好的用户体验,并满足您的服务和应用的无障碍功能要求。
所有特性
自定义语音 | 使用您自己的录音来训练自定义语音合成模型,为组织制作听起来更加自然的独特语音。您可以定义和选择适合组织的语音配置文件,根据语音需求的变化来快速调整,而不必录制新的语句。了解详情。 |
长音频合成 | 通过长音频合成功能异步合成最高 100 万字节的输入。 |
语音和语言选择 | 从涵盖 40 多种语言和语言变体的 220 多种丰富语音中进行选择;近期还将推出更多语音。 |
WaveNet 语音 | 利用基于 DeepMind 突破性研究成果而打造的 90 多种 WaveNet 语音,生成极其接近真人音质的声音。 |
文本和 SSML 支持 | 使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音规则,实现语音自定义。 |
音高调节 | 对所选语音的音高进行个性化设置,最多可比默认输出升高或降低 20 个半音。 |
讲话速度调整 | 调整您的语音讲话速度,最多可加快至正常语速的 4 倍,或减慢至四分之一。 |
音量增益控制 | 将输出音量最高调至 16db 或最低调至 -96db。 |
集成式 REST API 和 gRPC API | 轻松集成到可发送 REST 或 gRPC 请求的任何应用或设备,包括手机、PC、平板电脑和物联网设备(例如汽车、电视机、音响设备)。 |
音频格式灵活性 | 将文字转换为 MP3、Linear16、OGG Opus 和一些其他的音频格式。 |
音频配置文件 | 根据播放语音的音响设备类型(如耳机或电话线路)进行优化。 |
价格
Text-to-Speech 的价格取决于每月发送给服务并合成为音频的字符数量。 对于 WaveNet 语音,每月前 100 万字符免费。对于标准(非 WaveNet)语音,每月前 400 万字符免费。免费层级配额用尽后,系统会以处理 100 万个文本字符为单位收取 Speech-to-Text 的文本转换费用。
如果您使用非美元货币付费,请参阅 Google Cloud SKU 上以您的币种列出的价格。