Custom Voice(Beta 版)概览

Cloud Text-to-Speech API 现在提供 Custom Voice(Beta 版)。借助此功能,您可以使用自己的录音室品质的录音来训练自定义语音模型,以创建独特的语音。然后,通过 Cloud Speech Text-to-Speech API,您可以使用自定义语音来合成音频。目前仅支持美式英语 (en-US)。

如需请求对 Custom Voice 功能的访问权限,请填写此表单

用户提供的训练音频数据

Custom Voice 会提供一个文字转语音 (TTS) 模型,该模型听起来尽可能与您提供的音频数据相似。您的用例获得批准后,Google 会向您发送录音的脚本。建议您找到一名配音演员并与之合作,让其代表您的目标自定义语音。您需要让配音演员录制录音室品质的音频,用作训练数据。如果您的训练数据未通过 Google 的内部确认和验证检查,您可能需要在解决已发现的问题后重新录制或重新提交数据。

模型训练

Google 需要几周的时间来训练和评估您的自定义语音模型。对于 Beta 版功能的重大错误,不提供 SLA 支持。

评估和用户验收测试

Google 对经过训练的模型进行一轮初始评估。当模型超过我们的内部质量标准后,我们就会向您发送使用您的自定义模型录制的离线音频样本。然后,您将按照用户验收测试流程来评估音频结果,并对模型进行正式签收。