跳转到
Text-to-Speech

Text-to-Speech AI

使用依托 Google 旗下最强大 AI 技术的 API,将文字转换为自然而逼真的语音。

新客户可获得最高 $300 赠金,用于试用 Text-to-Speech 和其他 Google Cloud 产品。

  • 用自然的 AI 语音,为用户提供逼真的智能回复

  • 利用集成的文字转语音功能,为应用打造语音交互界面

  • 根据用户的语音和语言偏好,打造个性化的沟通和音频体验

优势

高保真度语音

部署 Google 的突破性技术,生成宛如真人发声的语音。该 API 依托 DeepMind 在语音合成领域的专业技术打造,能够提供接近真人音质的语音。

海量语音任你选

您可以从涵盖超过 75 种语言和语言变体的 380 多种语音中进行选择,包括中文普通话、印地语、西班牙语、阿拉伯语、俄语等。挑选最适合您的用户和应用的语音。

独一无二的语音

打造独一无二的品牌声线,在所有客户接触点彰显您的品牌魅力,告别千篇一律的大众化语音。

演示

实际试用 Text-to-Speech

输入所需内容,选择一种语言,然后点击“Speak It”即可听到相应语音。

主要特性

主要特性

Gemini-TTS

从寥寥数语的短片到宏大完整的叙事,无论是单人独白还是多人对话,都能实现自然流畅的语音合成,并保持上下文连贯性。您可以通过简单的自然语言提示,精准设定语音的风格、口音、语速、语调和情感表达,所有这些元素均可灵活调控。我们支持超过 75 个语言区域。如需了解详情,请前往 Media Studio 或查看我们的文档

Chirp 3:高清语音

利用基于 AudioML 的最新自发式对话语音,打造更具互动性的智能体。这些语音具有以下优势:高品质的音频、低延迟流式传输和自然流畅的人声表现;同时融合了人类说话不连贯的特点、丰富的情感跨度和精准的语调。如需了解详情,请前往 Media Studio 或查看我们的文档

Chirp 3:即时自定义语音

只需输入 10 秒钟音频,即可创建个性化的语音模型。非常适合电子游戏、有声读物、播客等。支持 30 多个语言区域。如需了解详情,请前往 Media Studio 或查看我们的文档

提示、文本和 SSML 支持

根据模型支持情况,使用简单的纯文本脚本、SSML 标记甚至强大的自然语言提示,控制数字和时间格式、演绎方式、发音和情感表达。如需了解详情,请前往 Media Studio 或查看我们的文档

文档

文档

Quickstart

Gemini-TTS

了解如何通过 Gemini-TTS 实现对语音合成的精准掌控:只需使用自然语言提示词,即可随心定义语音的风格、语气、语速及情感表达。

Quickstart

Chirp 3:高清语音概览

了解如何使用“Chirp 3:高清语音”来合成逼真、富有感染力的语音,并参考高级控制选项和脚本编写最佳实践来微调音频效果。

Quickstart

Chirp 3:即时自定义语音概览

只需 10 秒钟的录音,即可为组织创建个性化且独特的语音模型。有了语音模型,即可快速生成个性化语音。

Tutorial

使用 SSML 读出地址

了解如何使用语音合成标记语言 (SSML) 读出包含地址的文本文件。

Google Cloud Basics

Text-to-Speech 基础知识

Text-to-Speech API 使用方面的基本概念指南。

Google Cloud Basics

支持的语音和语言

浏览此产品的相关指南和资源。

没有看到您需要的内容?

使用场景

使用场景

使用场景
联络中心内的智能语音助手

借助 Customer Experience Agent Studio 上的智能语音助手,您可以动态生成语音,而非播放预先录制的静态音频,从而为客户打造更出色的语音服务体验。利用高品质合成语音与来电者互动,给予他们亲切感和个性化体验。

Google Cloud Speech-to-Text API 流程
使用场景
在设备中生成语音

让您的设备化身文字阅读器,以类似真人的语音与用户自然交流。再搭配使用 Speech-to-TextNatural Language,打造端到端语音界面,以轻松且富有吸引力的互动提升用户体验。

设备和 IoT 的语音转文字流程
使用场景
无障碍电子节目单 (EPG)

轻松实现电子节目单 (EPG) 文本朗读功能,在提升用户体验的同时,让您的服务和应用满足无障碍功能要求。试用 EPG 演示版

在电子节目单 (EPG) 中轻松集成文字转语音功能,在提升客户体验的同时,确保您的服务和应用符合无障碍功能要求。

电子节目单与 Text-to-Speech API 流程

所有特性

所有特性

音频流式合成

通过流式音频合成技术提供极速语音响应,助您构建超低延迟、实时无缝对话的 AI 智能体。

长音频合成

使用长音频合成功能可异步合成多达 100 万字节的输入内容。

语音和语言选择

从涵盖超过 75 种语言和语言变体的 380 多种丰富语音中进行选择;还有更多语音即将推出。

文本和 SSML 支持

使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音规则,按需自定义语音。

音高调节

随心定制所选语音的音高,可在默认设置的基础上调高或调低多达 20 个半音。

讲话速度调整

调整讲话语速,最多可加快至正常语速的 4 倍,或减慢至正常语速的四分之一。

音量增益控制

输出音量最高可调至 16 db,最低则可调至 -96 db。

集成式 REST API 和 gRPC API

轻松集成到可发送 REST 或 gRPC 请求的任何应用或设备,包括手机、PC、平板电脑和物联网设备(例如汽车、电视机、音箱)。

音频格式灵活性

可将文字转换为 MP3、Linear16、OGG Opus 及众多其他音频格式

音频配置文件

根据播放语音的音响设备类型(如耳机或电话线路)进行优化。

价格

价格

Text-to-Speech 的价格取决于每月向这项服务发送的要合成为音频的字符数量。对于 WaveNet 语音,每月前 100 万个字符免费。对于标准(非 WaveNet)语音,每月前 400 万个字符免费。超出免费层级配额后,Text-to-Speech 将按每 100 万个处理字符计费。

如果您使用非美元货币付费,则适用 Google Cloud SKU 中以您的币种列出的价格。

迈出下一步

新客户可获享 $300 赠金,用于试用 Text-to-Speech 和其他 Google Cloud 产品。

Cloud Text-to-Speech
Google Cloud