Text-to-Speech

使用由 Google 的 AI 技术提供支持的 API 将文字转换为自然而逼真的语音。

免费试用
  • action/check_circle_24px 使用 Sketch 创建。

    通过自然逼真的智能回复改善客户互动

  • action/check_circle_24px 使用 Sketch 创建。

    让用户与您的设备和应用中的语音界面进行互动

  • action/check_circle_24px 使用 Sketch 创建。

    根据用户首选的语音和语言对沟通方式进行个性化设置

优势

高保真度语音

部署 Google 的突破性技术,生成宛如真人发声的语音。该 API 基于 DeepMind 的语音合成专业技术打造而成,可提供接近真人音质的语音。

最广泛的语音选择

从涵盖 40 多种语言和语言变体的 220 多种语音中进行选择。挑选最适合您的用户和应用的语音。

独一无二的语音

为所有客户接触点打造一个独一无二的语音来代表您的品牌,而不是与其他组织使用相同的语音。

演示

实际试用 Text-to-Speech

输入所需内容,选择一种语言,然后点击“Speak It”即可听到相应语音。

主要特性

主要特性

Custom Voice(Beta 版)

使用您自己的录音来训练自定义语音合成模型,为组织制作独一无二并且听起来更加自然的语音。您可以定义和选择适合组织的语音配置文件,根据语音需求的变化来快速调整,而不必录制新的语句。了解详情

WaveNet 语音

利用基于 DeepMind 的突破性研究成果打造的 90 多种 WaveNet 语音,生成极其接近真人音质的声音。

语音调整

对所选语音的音高进行个性化设置,最多可比默认输出升高或降低 20 个半音。调整您的语音讲话速度,最多可加快至正常语速的 4 倍,或减慢至四分之一。

文本和 SSML 支持

使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音指令,实现语音自定义。

查看所有特性

最新资讯

最新资讯

订阅 Google Cloud 简报,了解产品动态、活动安排、特别优惠以及更多资讯。

文档

文档

Google Cloud 基础知识
Text-to-Speech 基础知识

Text-to-Speech API 使用方面的基本概念指南。

快速入门
快速入门:使用命令行

设置您的 Google Cloud 项目和授权,并向 Text-to-Speech 发出文字转音频请求。

Google Cloud 基础知识
支持的语音和语言

查看 Text-to-Speech 支持的语言并试听每种语言的示例语音。

Google Cloud 基础知识
Custom Voice(Beta 版)概览

了解如何使用自己的工作室品质录音,通过 Custom Voice 制作独一无二且听起来更为自然的语音。

教程
WaveNet 和其他合成语音

了解可用于 Text-to-Speech 的各种合成语音,包括高级 WaveNet 语音。

教程
使用 SSML 读出地址

本教程演示如何使用语音合成标记语言 (SSML) 读出地址的文本文件。

使用场景

使用场景

使用场景
联络中心内的语音聊天机器人

动态生成语音,而非播放预先录制的静态音频,从而提供更好的客服语音体验。用更加亲切和个性化的高品质合成语音与来电者互动。

“联络中心内的语音聊天机器人”参考架构
使用场景
在设备中生成语音

让您的设备发出真人般的语音,为用户带来自然而逼真的交流体验。结合 Speech-to-Text 打造端到端语音界面,并通过轻松且吸引人的互动改善用户体验。

“在设备中生成语音”参考架构

所有特性

所有特性

Custom Voice(Beta 版) 使用您自己的录音来训练自定义语音合成模型,为组织制作独一无二并且听起来更加自然的语音。您可以定义和选择适合组织的语音配置文件,根据语音需求的变化来快速调整,而不必录制新的语句。了解详情
语音和语言选择 从涵盖 40 多种语言和语言变体的多达 220 多种语音中进行选择;即将推出更多语音。
WaveNet 语音 利用基于 DeepMind 的突破性研究成果打造的 90 多种 WaveNet 语音,生成极其接近真人音质的声音。
文本和 SSML 支持 使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音指令,实现语音自定义。
音高调节 对所选语音的音高进行个性化设置,最多可比默认输出升高或降低 20 个半音。
讲话速度调整 调整您的语音讲话速度,最多可加快至正常语速的 4 倍,或减慢至四分之一。
音量增益控制 将输出音量最高调至 16db 或最低调至 -96db。
集成式 REST API 和 gRPC API 轻松集成到可发送 REST 或 gRPC 请求的任何应用或设备,包括手机、PC、平板电脑和物联网设备(例如汽车、电视机、音响设备)。
音频格式灵活性 多种音频格式可供选择,包括 MP3、Linear16 和 Ogg Opus。
音频配置文件 根据要用于播放语音的音响设备类型(如耳机或电话线路)进行优化。

价格

价格

系统会以 100 万个文本字符为单位收取 Text-to-Speech 的文本转换费用(在免费层级配额用尽后)。

如果您使用非美元货币付费,请参阅 Google Cloud SKU 上以您的币种列出的价格。