Text-to-Speech 可生成宛如真人发声的自然语音的音频数据。也就是说,它生成的音频听上去像人在说话。当您向 Text-to-Speech 发送合成请求时,必须指定语音。
您可以从 Text-to-Speech 中选择多种语音。语音因语言、性别和口音(适用于某些语言)而异。有些语言有多种语音可供选择。请参见支持的语音页面,查看适用于您所用语言的完整语音列表。在向 API 发送请求时,您可以设置 VoiceSelectionParams
字段,以指示 Text-to-Speech 使用此列表的特定语音。如需详细了解如何发送 synthesize
请求,请参阅 Text-to-Speech 快速入门。
Journey 语音(预览版)
借助由 AudioLM 引擎提供支持的 Journey 语音,您可以为对话式应用创建更具吸引力和同理心的语音。通过文本流式传输,Journey 语音可实现低延迟的实时通信,并支持受支持的语音列表中列出的语言。
聊天体验
en-US-Journey-F
虚拟助理
en-US-Journey-D
客户服务聊天机器人
en-US-Journey-F
交互式教育应用
en-US-Journey-O
销售和推介
en-US-Journey-D
故事时间
en-US-Journey-F
随意语音(预览版)
随意语音旨在用于不完美的聊天式对话,以使真人用户感到自然和舒适。它们支持说话中的停顿(哦、啊、嗯、呃),并且节奏和音调更自然。
Studio 语音
Studio 语音是专为新闻阅读和广播内容设计的叙述语音。
示例 1:朗读《了不起的盖茨比》(Great Gatsby) 的 en-US-Studio-O
语音。
Neural2 语音
Text-to-Speech API 提供了一个名为 Neural2 的语音层级。Neural2 语音基于用于创建自定义语音的相同技术。Neural2 使任何人都可以无需训练自己的自定义语音便可使用自定义语音技术。在全球和单区域端点中提供。
示例 1:Neural2 语音
WaveNet 语音
Text-to-Speech 还提供一组使用 WaveNet 模型生成的优质语音,Google 助理、Google 搜索以及 Google 翻译也使用该技术生成语音。WaveNet 技术提供的不仅仅是一系列合成语音:它代表了一种生成合成语音的全新方式。
与其他文本转语音系统相比,WaveNet 生成的语音听起来更为自然。它合成的语音在音节、音位和字词的重音与音调方面更像人类语音。
图 1:WaveNet 与其他合成语音以及人类语音的比较图表。 y 轴值表示每个语音的平均意见分数 (MOS)。测试对象会根据每声音与自然语音的相似程度,以 1 到 5 的等级对声音进行排名。如需详细了解 MOS 分数和 WaveNet 技术,请参阅 DeepMind WaveNet页面。
与大多数其他文本转语音系统不同,WaveNet 模型从头开始生成原始音频波形。该模型使用一个经过大量语音样本进行训练的神经网络。在训练期间,该网络提取语音的基础结构,例如哪些音调彼此跟随以及真实的语音波形是什么样子。当给定文本输入时,经过训练的 WaveNet 模型可以从头开始生成相应的语音波形,每次一个样本,每秒最多生成 24,000 个样本并在各个声音之间无缝过渡。
如果您想听听 WaveNet 生成的音频片段与其他文字转语音系统生成的片段有何不同,请比较下面的两个音频片段。
示例 1:高品质、非 WaveNet 语音
示例 2:WaveNet 语音
标准语音
Text-to-Speech 提供的语音在制作方式和用于创建语音机器模型的合成语音技术方面也有所不同。“参数式文字转语音”是一种场景语音技术,通常通过称为声码器 的信号处理算法传递输出来生成音频数据。Text-to-Speech 中提供的许多标准语音都使用了这种技术的变体。