此页面由 Cloud Translation API 翻译。

模型训练

建议您找到一名配音演员并与之合作，让其代表您的目标自定义语音。您需要让配音演员录制大约 10 秒的音频，用作训练数据。您还需要录制语音演员的同意声明。我们只需几分钟即可训练和提供克隆的模型。对于 Pre-GA 功能的重大 bug，不提供 SLA 支持。

第 1 步：创建用于克隆的训练数据

录制同意声明：为了遵守有关语音克隆的法律和道德准则，请使用适当的语言录制所需的同意声明，并将其作为单声道 WAV 文件（采用 LINEAR16 编码和 24 kHz 采样率）进行保存。（本人是此语音的所有者，并同意 Google 使用此语音来创建合成语音模型。）
录制初始音频：使用计算机麦克风以 24 kHz 采样率录制 10 秒的音频，并将其编码为 LINEAR16 编码的单声道 WAV 文件。确保录制过程中没有背景噪音。
存储音频文件：将录制的音频文件保存在指定的 Cloud Storage 位置。

您可以通过 Text-to-Speech 控制台创建克隆项目。

在 Text-to-Speech 控制台中，前往合成页面
输入将合成为语音的文本，然后选择目标语言代码（仅适用于 en-US）。
选中自定义语音复选框，然后点击生成密钥。
在打开的子任务中填写所有必填字段。
现在，合成表单中应该会显示一个语音克隆密钥：
- 您可以保存此密钥以备日后使用，以便日后跳过“生成密钥”流程
- 注意：我们不会保留您的密钥。有权访问您的 Cloud 项目的任何人都可以使用该密钥生成使用您的克隆语音合成的语音，因此请务必妥善保管。
切换高级设置部分，然后在采样率 (Hertz) 字段中输入 24000，然后点击合成。

目前，我们仅合成 24kHz 的克隆语音。

您可以立即下载或播放音频，以便听听音频的声音。