请试用 Gemini 1.5 Pro（Vertex AI 中最先进的多模态模型），看看您可以通过包含 100 万个词元的上下文窗口构建什么

Text-to-Speech

Text-to-Speech AI

使用由 Google 的精华 AI 技术提供支持的 API，将文字转换为自然而逼真的语音。

新客户可获得最高 $300 赠金，用于试用 Text-to-Speech 和其他 Google Cloud 产品。

免费试用 Text-to-Speech 联系业务代表

通过自然逼真的智能回复改善客户互动
让用户与您的设备和应用中的语音界面进行互动
根据用户首选的语音和语言对沟通方式进行个性化设置

了解如何使用 Text-to-Speech API 创建合成语音

开始自学实验

优势

高保真度语音

部署 Google 的突破性技术，生成宛如真人发声的语音。该 API 基于 DeepMind 的语音合成专业技术打造而成，可提供接近真人音质的语音。

最广泛的语音选择

您可以从涵盖 50 多种语言和语言变体的 380 多种语音中进行选择，包括中文普通话、印地语、西班牙语、阿拉伯语、俄语等。挑选最适合您的用户和应用的语音。

独特的语音

打造一种独特的语音来在所有客户接触点代表您的品牌，而不是与其他组织使用相同的语音。

演示

实际试用 Text-to-Speech

输入所需内容，选择一种语言，然后点击“Speak It”即可听到相应语音。

主要特性

历程语音（实验性）

使用基于 AudioLM 的最新自发式对话语音构建富有吸引力的客服。

Studio 语音

在录音室级环境中录制专业解说内容，让您的听众耳目一新。务必要戴上耳机！

Neural2 语音

借助以推进自定义语音功能的最新研究成果打造的即用型语音，实现国际化的语音体验。

自定义语音

用您自己录制的音频来训练一个自定义语音模型，为组织制作听起来更加自然的独特语音。您可以定义和选择适合组织的语音配置文件，根据语音需求的变化来快速调整，而不必录制新的语句。

文本和 SSML 支持

使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音规则，实现语音自定义。

查看所有功能

Text-to-Speech 基础知识

Text-to-Speech API 使用方面的基本概念指南。

了解详情

Quickstart

快速入门：使用命令行

设置您的 Google Cloud 项目和授权，并向 Text-to-Speech 发出文字转音频请求。

了解详情

Google Cloud Basics

支持的语音和语言

浏览此产品的指南和资源。

了解详情

Google Cloud Basics

自定义语音（Beta 版）概览

了解如何使用自己的录音室级品质的录音，通过自定义语音功能制作听起来更为自然的独特语音。

了解详情

Tutorial

WaveNet 和其他合成语音

了解可用于 Text-to-Speech 的各种合成语音，包括高级 WaveNet 语音。

了解详情

Tutorial

使用 SSML 读出地址

本教程演示如何使用语音合成标记语言 (SSML) 读出地址的文本文件。

了解详情

没有看到您需要的内容？

查看所有产品文档

版本说明

了解 Text-to-Speech 的最新版本

使用场景

联络中心内的语音聊天机器人

基于 Dialogflow 的语音聊天机器人可动态生成语音，而非播放预先录制的静态音频，从而帮助您提供更好的客服语音体验。用更加亲切和个性化的高品质合成语音与来电者互动。

使用场景

在设备中生成语音

让您的设备作为文字阅读器发出类似真人的语音，为用户带来自然而逼真的交流体验。结合 Speech-to-Text 和 Natural Language 打造端到端语音界面，并通过轻松且富有吸引力的互动提升用户体验。

使用场景

无障碍 EPG（电子节目单）

轻松让设备读出 EPG 的文字内容，为您的客户提供更好的用户体验，并满足您的服务和应用的无障碍功能要求。试用 EPG 演示版。

在 EPG 中轻松实现文字转语音功能，为您的客户提供更好的用户体验，并满足您的服务和应用的无障碍功能要求。

查看所有技术指南

所有特性

自定义语音	使用您自己的录音来训练自定义语音合成模型，为组织制作听起来更加自然的独特语音。您可以定义和选择适合组织的语音配置文件，根据语音需求的变化来快速调整，而不必录制新的语句。了解详情。
长音频合成	通过长音频合成功能异步合成最高 100 万字节的输入。
语音和语言选择	从涵盖 40 多种语言和语言变体的 220 多种丰富语音中进行选择；近期还将推出更多语音。
WaveNet 语音	利用基于 DeepMind 突破性研究成果而打造的 90 多种 WaveNet 语音，生成极其接近真人音质的声音。
文本和 SSML 支持	使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音规则，实现语音自定义。
音高调节	对所选语音的音高进行个性化设置，最多可比默认输出升高或降低 20 个半音。
讲话速度调整	调整您的语音讲话速度，最多可加快至正常语速的 4 倍，或减慢至四分之一。
音量增益控制	将输出音量最高调至 16db 或最低调至 -96db。
集成式 REST API 和 gRPC API	轻松集成到可发送 REST 或 gRPC 请求的任何应用或设备，包括手机、PC、平板电脑和物联网设备（例如汽车、电视机、音响设备）。
音频格式灵活性	将文字转换为 MP3、Linear16、OGG Opus 和一些其他的音频格式。
音频配置文件	根据播放语音的音响设备类型（如耳机或电话线路）进行优化。

价格

Text-to-Speech 的价格取决于每月发送给服务并合成为音频的字符数量。对于 WaveNet 语音，每月前 100 万字符免费。对于标准（非 WaveNet）语音，每月前 400 万字符免费。免费层级配额用尽后，系统会以处理 100 万个文本字符为单位收取 Speech-to-Text 的文本转换费用。

如果您使用非美元货币付费，请参阅 Google Cloud SKU 上以您的币种列出的价格。

查看价格详情

更进一步

新客户可获享 $300 赠金，用于试用 Text-to-Speech 和其他 Google Cloud 产品。

免费试用 Text-to-Speech

不知从何入手，需要一点帮助？
联系业务代表
与值得信赖的合作伙伴携手
寻找合作伙伴
继续浏览
查看所有产品

Text-to-Speech AI

高保真度语音

最广泛的语音选择

独特的语音

实际试用 Text-to-Speech

主要特性

历程语音（实验性）

Studio 语音

Neural2 语音

自定义语音

文本和 SSML 支持

最新资讯

文档

Text-to-Speech 基础知识

快速入门：使用命令行

支持的语音和语言

自定义语音（Beta 版）概览

WaveNet 和其他合成语音

使用 SSML 读出地址

没有看到您需要的内容？

浏览更多文档

使用场景

联络中心内的语音聊天机器人

在设备中生成语音

无障碍 EPG（电子节目单）

所有特性

价格

更进一步

不知从何入手，需要一点帮助？

与值得信赖的合作伙伴携手

继续浏览