模型训练
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
建议您找到一名配音演员并与之合作,让其代表您的目标自定义语音。您需要让配音演员录制大约 10 秒的音频,用作训练数据。您还需要录制语音演员的同意声明。我们只需几分钟即可训练和提供克隆的模型。对于 Pre-GA 功能的重大 bug,不提供 SLA 支持。
第 1 步:创建用于克隆的训练数据
- 录制同意声明:为了遵守有关语音克隆的法律和道德准则,请使用适当的语言录制所需的同意声明,并将其作为单声道 WAV 文件(采用 LINEAR16 编码和 24 kHz 采样率)进行保存。(本人是此语音的所有者,并同意 Google 使用此语音来创建合成语音模型。)
- 录制初始音频:使用计算机麦克风以 24 kHz 采样率录制 10 秒的音频,并将其编码为 LINEAR16 编码的单声道 WAV 文件。确保录制过程中没有背景噪音。
- 存储音频文件:将录制的音频文件保存在指定的 Cloud Storage 位置。
第 2 步:创建克隆模型
您可以通过 Text-to-Speech 控制台创建克隆项目。
在 Text-to-Speech 控制台中,前往合成页面
输入将合成为语音的文本,然后选择目标语言代码(仅适用于 en-US
)。
选中自定义语音复选框,然后点击生成密钥。
在打开的子任务中填写所有必填字段。
现在,合成表单中应该会显示一个语音克隆密钥:
切换高级设置部分,然后在采样率 (Hertz) 字段中输入 24000,然后点击合成。
目前,我们仅合成 24kHz 的克隆语音。
您可以立即下载或播放音频,以便听听音频的声音。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-03-13。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-03-13。"],[],[]]