试用 Gemini 2.5，这是我们的最新模型，延迟时间短，性能更强。

Text-to-Speech

Text-to-Speech AI

使用由 Google 的精华 AI 技术提供支持的 API，将文字转换为自然而逼真的语音。

新客户可获得最高 $300 赠金，用于试用 Text-to-Speech 和其他 Google Cloud 产品。

通过自然逼真的智能回复改善客户互动
让用户与您的设备和应用中的语音界面进行互动
根据用户首选的语音和语言对沟通方式进行个性化设置

了解如何使用 Text-to-Speech API 创建合成语音

开始自学实验

优势

高保真度语音

部署 Google 的突破性技术，生成宛如真人发声的语音。该 API 基于 DeepMind 的语音合成专业技术打造而成，可提供接近真人音质的语音。

最广泛的语音选择

您可以从涵盖 50 多种语言和语言变体的 380 多种语音中进行选择，包括中文普通话、印地语、西班牙语、阿拉伯语、俄语等。挑选最适合您的用户和应用的语音。

独特的语音

打造一种独特的语音来在所有客户接触点代表您的品牌，而不是与其他组织使用相同的语音。

演示

实际试用 Text-to-Speech

输入所需内容，选择一种语言，然后点击“Speak It”即可听到相应语音。

主要特性

Chirp 3：高清语音

使用基于 AudioLM 的最新自发式对话语音构建富有吸引力的客服。这些语音具有以下好处：高品质的音频、低延迟流式传输和自然流畅的说话方式；同时融合了人类说话不连贯的特点并具有准确的语调。

Studio 语音

在录音室级环境中录制专业解说内容，让您的听众耳目一新。务必要戴上头戴式耳机。

现在，您可以生成涉及多位说话者的对话，以打造最具互动性的场景。

Neural2 语音

借助以推进自定义语音功能的最新研究成果打造的即用型语音，实现国际化的语音体验。

即时自定义语音

只需 10 秒钟的音频输入，即可创建个性化语音模型。来抢先体验吧！

文本和 SSML 支持

使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音规则，实现语音自定义。

Text-to-Speech 基础知识

Text-to-Speech API 使用方面的基本概念指南。

Quickstart

快速入门：使用命令行

设置您的 Google Cloud 项目和授权，并向 Text-to-Speech 发出文字转音频请求。

Google Cloud Basics

支持的语音和语言

浏览此产品的指南和资源。

Google Cloud Basics

即时自定义语音概览

了解如何使用 10 秒的录音创建自定义语音。

Tutorial

WaveNet 和其他合成语音

了解可用于 Text-to-Speech 的各种合成语音，包括高级 WaveNet 语音。

Tutorial

使用 SSML 读出地址

本教程演示如何使用语音合成标记语言 (SSML) 读出地址的文本文件。

没有看到您需要的内容？

版本说明

了解 Text-to-Speech 的最新版本

使用场景

联络中心内的语音聊天机器人

基于 Dialogflow 的语音聊天机器人可动态生成语音，而非播放预先录制的静态音频，从而帮助您提供更好的客服语音体验。用更加亲切和个性化的高品质合成语音与来电者互动。

使用场景

在设备中生成语音

让您的设备作为文字阅读器发出类似真人的语音，为用户带来自然而逼真的交流体验。结合 Speech-to-Text 和 Natural Language 打造端到端语音界面，并通过轻松且富有吸引力的互动提升用户体验。

使用场景

无障碍 EPG（电子节目单）

轻松让设备读出 EPG 的文字内容，为您的客户提供更好的用户体验，并满足您的服务和应用的无障碍功能要求。试用 EPG 演示版。

在 EPG 中轻松实现文字转语音功能，为您的客户提供更好的用户体验，并满足您的服务和应用的无障碍功能要求。

生成解决方案

您想解决什么问题？

What you'll get:

分步指南

参考架构

可用的预构建解决方案

此服务是使用 Vertex AI 构建的。您必须年满 18 周岁才能使用。请勿输入敏感信息、机密信息或个人信息。

所有特性

即时自定义语音	用您自己录制的音频来创建个性化语音模型，为组织制作独特而自然的语音。它可以快速生成个人语音，然后可以使用 Cloud TTS API 将这些个人语音合成音频，该 API 同时支持流式传输和长文本。了解详情
长音频合成	通过长音频合成功能异步合成最高 100 万字节的输入。
语音和语言选择	从涵盖 40 多种语言和语言变体的 220 多种丰富语音中进行选择；近期还将推出更多语音。
WaveNet 语音	利用基于 DeepMind 突破性研究成果而打造的 90 多种 WaveNet 语音，生成极其接近真人音质的声音。
文本和 SSML 支持	使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音规则，实现语音自定义。
音高调节	对所选语音的音高进行个性化设置，最多可比默认输出升高或降低 20 个半音。
讲话速度调整	调整您的语音讲话速度，最多可加快至正常语速的 4 倍，或减慢至四分之一。
音量增益控制	将输出音量最高调至 16db 或最低调至 -96db。
集成式 REST API 和 gRPC API	轻松集成到可发送 REST 或 gRPC 请求的任何应用或设备，包括手机、PC、平板电脑和物联网设备（例如汽车、电视机、音响设备）。
音频格式灵活性	将文字转换为 MP3、Linear16、OGG Opus 和一些其他的音频格式。
音频配置文件	根据播放语音的音响设备类型（如耳机或电话线路）进行优化。

价格

Text-to-Speech 的价格取决于每月发送给服务并合成为音频的字符数量。对于 WaveNet 语音，每月前 100 万字符免费。对于标准（非 WaveNet）语音，每月前 400 万字符免费。免费层级配额用尽后，系统会以处理 100 万个文本字符为单位收取 Speech-to-Text 的文本转换费用。

如果您使用非美元货币付费，请参阅 Google Cloud SKU 上以您的币种列出的价格。

更进一步

新客户可获享 $300 赠金，用于试用 Text-to-Speech 和其他 Google Cloud 产品。

不知从何入手，需要一点帮助？
联系业务代表
与值得信赖的合作伙伴携手
寻找合作伙伴
继续浏览
查看所有产品

Text-to-Speech AI

高保真度语音

最广泛的语音选择

独特的语音

实际试用 Text-to-Speech

主要特性

Chirp 3：高清语音

Studio 语音

Neural2 语音

即时自定义语音

文本和 SSML 支持

最新资讯

文档

Text-to-Speech 基础知识

快速入门：使用命令行

支持的语音和语言

即时自定义语音概览

WaveNet 和其他合成语音

使用 SSML 读出地址

没有看到您需要的内容？

浏览更多文档

使用场景

联络中心内的语音聊天机器人

在设备中生成语音

无障碍 EPG（电子节目单）

所有特性

价格

更进一步

不知从何入手，需要一点帮助？

与值得信赖的合作伙伴携手

继续浏览