欢迎试用 Gemini 3。它是 Gemini Enterprise Agent Platform 中在推理、编码和多模态理解领域性能最优的模型

Text-to-Speech

Text-to-Speech AI

使用依托 Google 旗下最强大 AI 技术的 API，将文字转换为自然而逼真的语音。

新客户可获得最高 $300 赠金，用于试用 Text-to-Speech 和其他 Google Cloud 产品。

用自然的 AI 语音，为用户提供逼真的智能回复
利用集成的文字转语音功能，为应用打造语音交互界面
根据用户的语音和语言偏好，打造个性化的沟通和音频体验

了解如何使用 Text-to-Speech API 创建合成语音

开始自学实验

优势

高保真度语音

部署 Google 的突破性技术，生成宛如真人发声的语音。该 API 依托 DeepMind 在语音合成领域的专业技术打造，能够提供接近真人音质的语音。

海量语音任你选

您可以从涵盖超过 75 种语言和语言变体的 380 多种语音中进行选择，包括中文普通话、印地语、西班牙语、阿拉伯语、俄语等。挑选最适合您的用户和应用的语音。

独一无二的语音

打造独一无二的品牌声线，在所有客户接触点彰显您的品牌魅力，告别千篇一律的大众化语音。

演示

实际试用 Text-to-Speech

输入所需内容，选择一种语言，然后点击“Speak It”即可听到相应语音。

主要特性

主要功能

Gemini-TTS

从寥寥数语的短片到宏大完整的叙事，无论是单人独白还是多人对话，都能实现自然流畅的语音合成，并保持上下文连贯性。您可以通过简单的自然语言提示，精准设定语音的风格、口音、语速、语调和情感表达，所有这些元素均可灵活调控。我们支持超过 75 个语言区域。如需了解详情，请前往 Media Studio 或查看我们的文档。

Chirp 3：高清语音

利用基于 AudioML 的最新自发式对话语音，打造更具互动性的智能体。这些语音具有以下优势：高品质的音频、低延迟流式传输和自然流畅的人声表现；同时融合了人类说话不连贯的特点、丰富的情感跨度和精准的语调。如需了解详情，请前往 Media Studio 或查看我们的文档。

Chirp 3：即时自定义语音

只需输入 10 秒钟音频，即可创建个性化的语音模型。非常适合电子游戏、有声读物、播客等。支持 30 多个语言区域。如需了解详情，请前往 Media Studio 或查看我们的文档。

提示、文本和 SSML 支持

根据模型支持情况，使用简单的纯文本脚本、SSML 标记甚至强大的自然语言提示，控制数字和时间格式、演绎方式、发音和情感表达。如需了解详情，请前往 Media Studio 或查看我们的文档。

Gemini-TTS

了解如何通过 Gemini-TTS 实现对语音合成的精准掌控：只需使用自然语言提示词，即可随心定义语音的风格、语气、语速及情感表达。

Quickstart

Chirp 3：高清语音概览

了解如何使用“Chirp 3：高清语音”来合成逼真、富有感染力的语音，并参考高级控制选项和脚本编写最佳实践来微调音频效果。

Quickstart

Chirp 3：即时自定义语音概览

只需 10 秒钟的录音，即可为组织创建个性化且独特的语音模型。有了语音模型，即可快速生成个性化语音。

Tutorial

使用 SSML 读出地址

了解如何使用语音合成标记语言 (SSML) 读出包含地址的文本文件。

Google Cloud Basics

Text-to-Speech 基础知识

Text-to-Speech API 使用方面的基本概念指南。

Google Cloud Basics

支持的语音和语言

浏览此产品的相关指南和资源。

没有看到您需要的内容？

版本说明

了解 Text-to-Speech 的最新版本

使用场景

联络中心内的智能语音助手

借助 Customer Experience Agent Studio 上的智能语音助手，您可以动态生成语音，而非播放预先录制的静态音频，从而为客户打造更出色的语音服务体验。利用高品质合成语音与来电者互动，给予他们亲切感和个性化体验。

使用场景

在设备中生成语音

让您的设备化身文字阅读器，以类似真人的语音与用户自然交流。再搭配使用 Speech-to-Text 和 Natural Language，打造端到端语音界面，以轻松且富有吸引力的互动提升用户体验。

使用场景

无障碍电子节目单 (EPG)

轻松实现电子节目单 (EPG) 文本朗读功能，在提升用户体验的同时，让您的服务和应用满足无障碍功能要求。试用 EPG 演示版。

在电子节目单 (EPG) 中轻松集成文字转语音功能，在提升客户体验的同时，确保您的服务和应用符合无障碍功能要求。

所有特性

音频流式合成	通过流式音频合成技术提供极速语音响应，助您构建超低延迟、实时无缝对话的 AI 智能体。
长音频合成	使用长音频合成功能可异步合成多达 100 万字节的输入内容。
语音和语言选择	从涵盖超过 75 种语言和语言变体的 380 多种丰富语音中进行选择；还有更多语音即将推出。
文本和 SSML 支持	使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音规则，按需自定义语音。
音高调节	随心定制所选语音的音高，可在默认设置的基础上调高或调低多达 20 个半音。
讲话速度调整	调整讲话语速，最多可加快至正常语速的 4 倍，或减慢至正常语速的四分之一。
音量增益控制	输出音量最高可调至 16 db，最低则可调至 -96 db。
集成式 REST API 和 gRPC API	轻松集成到可发送 REST 或 gRPC 请求的任何应用或设备，包括手机、PC、平板电脑和物联网设备（例如汽车、电视机、音箱）。
音频格式灵活性	可将文字转换为 MP3、Linear16、OGG Opus 及众多其他音频格式。
音频配置文件	根据播放语音的音响设备类型（如耳机或电话线路）进行优化。

价格

Text-to-Speech 的价格取决于每月向这项服务发送的要合成为音频的字符数量。对于 WaveNet 语音，每月前 100 万个字符免费。对于标准（非 WaveNet）语音，每月前 400 万个字符免费。超出免费层级配额后，Text-to-Speech 将按每 100 万个处理字符计费。

如果您使用非美元货币付费，请参阅 Google Cloud SKU 上以您的币种列出的价格。

更进一步

新客户可获享 $300 赠金，用于试用 Text-to-Speech 和其他 Google Cloud 产品。

不知从何入手，需要一点帮助？
联系业务代表
与值得信赖的合作伙伴携手
寻找合作伙伴
继续浏览
查看所有产品

Text-to-Speech AI

高保真度语音

海量语音任你选

独一无二的语音

实际试用 Text-to-Speech

主要功能

Gemini-TTS

Chirp 3：高清语音

Chirp 3：即时自定义语音

提示、文本和 SSML 支持

最新资讯

文档

Gemini-TTS

Chirp 3：高清语音概览

Chirp 3：即时自定义语音概览

使用 SSML 读出地址

Text-to-Speech 基础知识

支持的语音和语言

没有看到您需要的内容？

浏览更多文档

使用场景

联络中心内的智能语音助手

在设备中生成语音

无障碍电子节目单 (EPG)

所有特性

价格

更进一步

不知从何入手，需要一点帮助？

与值得信赖的合作伙伴携手

继续浏览