Text-to-Speech 文档

自定义语音

Cloud Text-to-Speech API 现在提供 Custom Voices。借助此功能，您可以使用自己的录音室品质的录音来训练自定义语音模型，以创建独特的语音。然后，通过 Cloud Text-to-Speech API，您可以使用自定义语音来合成音频。

如需实现 Custom Voice，请与销售团队成员联系。

自定义语音示例

您可以收听以下示例，听到自定义语音的示例。第一个音频示例是原始语音。然后，您可以收听基于原始示例的两个自定义语音示例。

女性 - 原始语音		男性 - 原始语音
女性 - Custom Voice 示例 1		男性 - Custom Voice 示例 1
女性 - Custom Voice 示例 2		男性 - Custom Voice 示例 2

用户提供的训练音频数据

Custom Voice 会提供一个文字转语音 (TTS) 模型，该模型听起来尽可能与您提供的音频数据相似。您的用例获得批准后，Google 会向您发送录音的脚本。建议您找到一名配音演员并与之合作，让其代表您的目标自定义语音。您需要让配音演员录制录音室品质的音频，用作训练数据。如果您的训练数据未通过 Google 的内部确认和验证检查，您可能需要在解决已发现的问题后重新录制或重新提交数据。

模型训练

Google 需要几周的时间来训练和评估您的自定义语音模型。对于 Beta 版功能的重大错误，不提供 SLA 支持。

评估和用户验收测试

Google 对经过训练的模型进行一轮初始评估。当模型超过我们的内部质量标准后，我们就会向您发送使用您的自定义模型录制的离线音频样本。然后，您将按照用户验收测试流程来评估音频结果，并对模型进行正式签收。

快速入门

5 分钟学会

API 与参考

REST 和 gRPC 参考