试用 Gemini 3，这是 Vertex AI 中最适合推理、编码和多模态理解的模型

Text-to-Speech

Text-to-Speech AI

使用依托 Google 旗下最强大 AI 技术的 API，将文字转换为自然而逼真的语音。

新客户可获得最高 $300 赠金，用于试用 Text-to-Speech 和其他 Google Cloud 产品。

用自然的 AI 语音，为用户提供逼真的智能回复
为应用构建集成了文字转语音功能的语音界面
根据用户的语音和语言偏好，打造个性化的沟通和音频体验

了解如何使用 Text-to-Speech API 创建合成语音

开始自学实验

优势

高保真度语音

部署 Google 的突破性技术，生成宛如真人发声的语音。该 API 基于 DeepMind 的语音合成专业技术打造而成，可提供接近真人音质的语音。

海量语音任你选

您可以从涵盖超过 75 种语言和语言变体的 380 多种语音中进行选择，包括中文普通话、印地语、西班牙语、阿拉伯语、俄语等。挑选最适合您的用户和应用的语音。

独一无二的语音

打造一种独特的语音，用于在所有客户接触点代表您的品牌，而不是与其他组织使用相同的语音。

演示

实际试用 Text-to-Speech

输入所需内容，选择一种语言，然后点击“Speak It”即可听到相应语音。

主要特性

Gemini-TTS

无论是简短片段还是长篇叙述，我们的技术都能合成单人或多人语音，并保持上下文的连贯性。您可以通过简单的自然语言提示，精准设定语音的风格、口音、语速、语调和情感表达，所有这些元素均可灵活调控。我们支持超过 75 个语言区域。如需了解详情，请前往 Media Studio 或查看我们的文档。

Chirp 3：高清语音

使用基于 AudioML 的最新自发式对话语音构建富有吸引力的客服。这些语音具有以下优势：高品质的音频、低延迟流式传输和自然流畅的人声表现；同时融合了人类说话不连贯的特点、丰富的情感跨度和精准的语调。如需了解详情，请前往 Media Studio 或查看我们的文档。

Chirp 3：即时自定义语音

只需输入 10 秒钟音频，即可创建个性化的语音模型。非常适合电子游戏、有声读物、播客等。支持 30 多个语言区域。如需了解详情，请前往 Media Studio 或查看我们的文档。

提示、文本和 SSML 支持

根据模型支持情况，使用简单的纯文本脚本、SSML 标记甚至强大的自然语言提示，控制数字和时间格式、演绎方式、发音和情感表达。如需了解详情，请前往 Media Studio 或查看我们的文档。

Gemini-TTS

了解如何使用 Gemini-TTS 通过自然语言提示来精确控制语音合成，指定风格、语气、节奏和情感表达。

Quickstart

Chirp 3：高清语音概览

了解如何使用 Chirp 3：高清语音来合成逼真、富有感染力的语音，并按照高级控制和脚本编写最佳实践来微调音频。

Quickstart

Chirp 3：即时自定义语音概览

只需 10 秒钟的录音，即可为组织创建个性化且独特的语音模型。有了语音模型，就可以快速生成个人语音。

Tutorial

使用 SSML 读出地址

了解如何使用语音合成标记语言 (SSML) 读出包含地址的文本文件。

Google Cloud Basics

Text-to-Speech 基础知识

Text-to-Speech API 使用方面的基本概念指南。

Google Cloud Basics

支持的语音和语言

浏览此产品的相关指南和资源。

没有看到您需要的内容？

版本说明

了解 Text-to-Speech 的最新版本

使用场景

联络中心内的语音聊天机器人

基于 Dialogflow 的语音聊天机器人可动态生成语音，而非播放预先录制的静态音频，从而提供更好的语音客服体验。用更加亲切和个性化的高品质合成语音与来电者互动。

使用场景

在设备中生成语音

让您的设备化身文字阅读器，以类似真人的语音与用户自然交流。再搭配使用 Speech-to-Text 和 Natural Language，打造端到端语音界面，以轻松且富有吸引力的互动提升用户体验。

使用场景

无障碍 EPG（电子节目单）

轻松让设备读出 EPG 的文字内容，为您的客户提供更好的用户体验，并满足您的服务和应用的无障碍功能要求。试用 EPG 演示版。

在 EPG 中轻松实现文字转语音功能，为您的客户提供更好的用户体验，并满足您的服务和应用的无障碍功能要求。

所有特性

流式音频合成	通过流式音频合成技术提供极速语音响应，助您构建具备超低延迟、可实时无缝对话的 AI 智能体。
长音频合成	使用长音频合成功能可异步合成多达 100 万字节的输入。
语音和语言选择	从涵盖超过 75 种语言和语言变体的 380 多种丰富语音中进行选择；近期还将推出更多语音。
文本和 SSML 支持	使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音规则，按需自定义语音。
音高调节	对所选语音的音高进行个性化设置，最多可比默认输出升高或降低 20 个半音。
讲话速度调整	调整讲话语速，最多可加快至正常语速的 4 倍，或减慢至正常语速的四分之一。
音量增益控制	输出音量最高可调至 16 db，最低则可调至 -96 db。
集成式 REST API 和 gRPC API	轻松集成到可发送 REST 或 gRPC 请求的任何应用或设备，包括手机、PC、平板电脑和物联网设备（例如汽车、电视机、音箱）。
音频格式灵活性	可将文字转换为 MP3、Linear16、OGG Opus 及众多其他音频格式。
音频配置文件	根据播放语音的音响设备类型（如耳机或电话线路）进行优化。

价格

Text-to-Speech 的价格取决于每月向这项服务发送的要合成为音频的字符数量。对于 WaveNet 语音，每月前 100 万个字符免费。对于标准（非 WaveNet）语音，每月前 400 万个字符免费。免费层级配额用尽后，Speech-to-Text 会以 100 万个文本字符的处理量为单位收取使用费用。

如果您使用非美元币种付费，请参阅 Google Cloud SKU 上以您的币种列出的价格。

迈出下一步

新客户可获享 $300 赠金，用于试用 Text-to-Speech 和其他 Google Cloud 产品。

不知从何入手，需要一点帮助？
联系销售团队
与值得信赖的合作伙伴携手
寻找合作伙伴
继续浏览
查看所有产品

Text-to-Speech AI

高保真度语音

海量语音任你选

独一无二的语音

实际试用 Text-to-Speech

主要特性

Gemini-TTS

Chirp 3：高清语音

Chirp 3：即时自定义语音

提示、文本和 SSML 支持

最新资讯

文档

Gemini-TTS

Chirp 3：高清语音概览

Chirp 3：即时自定义语音概览

使用 SSML 读出地址

Text-to-Speech 基础知识

支持的语音和语言

没有看到您需要的内容？

浏览更多文档

使用场景

联络中心内的语音聊天机器人

在设备中生成语音

无障碍 EPG（电子节目单）

所有特性

价格

迈出下一步

不知从何入手，需要一点帮助？

与值得信赖的合作伙伴携手

继续浏览