语音类型

概览

Text-to-Speech 可生成宛如真人发声的自然语音的音频数据。也就是说,它生成的音频听上去像人在说话。当您向 Text-to-Speech 发送合成请求时,必须指定语音。

您可以从 Text-to-Speech 中选择多种语音。语音因语言、性别和口音(适用于某些语言)而异。有些语言有多种语音可供选择。请参见支持的语音页面,查看适用于您所用语言的完整语音列表。在向 API 发送请求时,您可以设置 VoiceSelectionParams 字段,以指示 Text-to-Speech 使用此列表的特定语音。如需详细了解如何发送 synthesize 请求,请参阅 Text-to-Speech 快速入门

历程语音

历程语音(实验性)依靠于大语言建模技术的发展进步,具有更丰富的韵律。历程语音可以管理范围更广泛的音高、音量、音色和长度。它们还具有增强的语音机制,与我们的其他语音选项相比,能够更好地处理不流利和中断的问题。我们建议在对话语音应用场景中试验这类语音。


示例 1:en-US-Journey-D 语音

随意语音(预览版

随意语音旨在用于不完美的聊天式对话,以使真人用户感到自然和舒适。它们支持说话中的停顿(哦、啊、嗯、呃),并且节奏和音调更自然。


Studio 语音

Text-to-Speech API 提供了一个名为“录音室”的高级语音层级。这种语音类型专门设计用于诸如叙述和新闻阅读等长篇文字。


示例 1:朗读《了不起的盖茨比》(Great Gatsby) 的 en-US-Studio-O 语音。

Neural2 语音

Text-to-Speech API 提供了一个名为 Neural2 的语音层级。Neural2 语音基于用于创建自定义语音的相同技术。Neural2 使任何人都可以无需训练自己的自定义语音便可使用自定义语音技术。在全球和单区域端点中提供。


示例 1:Neural2 语音

WaveNet 语音

Text-to-Speech 还提供一组使用 WaveNet 模型生成的优质语音,Google 助理、Google 搜索以及 Google 翻译也使用该技术生成语音。WaveNet 技术提供的不仅仅是一系列合成语音:它代表了一种生成合成语音的全新方式。

与其他文本转语音系统相比,WaveNet 生成的语音听起来更为自然。它合成的语音在音节、音位和字词的重音与音调方面更像人类语音。

图表展示了 WaveNet 具有母语人士的最爱图 1:WaveNet 与其他合成语音以及人类语音的比较图表。 y 轴值表示每个语音的平均意见分数 (MOS)。测试对象会根据每声音与自然语音的相似程度,以 1 到 5 的等级对声音进行排名。如需详细了解 MOS 分数和 WaveNet 技术,请参阅 DeepMind WaveNet页面。

与大多数其他文本转语音系统不同,WaveNet 模型从头开始生成原始音频波形。该模型使用一个经过大量语音样本进行训练的神经网络。在训练期间,该网络提取语音的基础结构,例如哪些音调彼此跟随以及真实的语音波形是什么样子。当给定文本输入时,经过训练的 WaveNet 模型可以从头开始生成相应的语音波形,每次一个样本,每秒最多生成 24,000 个样本并在各个声音之间无缝过渡。

如果您想听听 WaveNet 生成的音频片段与其他文字转语音系统生成的片段有何不同,请比较下面的两个音频片段。


示例 1:高品质、非 WaveNet 语音


示例 2:WaveNet 语音

标准语音

Text-to-Speech 提供的语音在制作方式和用于创建语音机器模型的合成语音技术方面也有所不同。“参数式文字转语音”是一种场景语音技术,通常通过称为声码器 的信号处理算法传递输出来生成音频数据。Text-to-Speech 中提供的许多标准语音都使用了这种技术的变体。

自行试用

如果您是 Google Cloud 新手,请创建一个账号来评估 Text-to-Speech 在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。

免费试用 Text-to-Speech