模型训练

建议您找到一名配音演员并与之合作,让其代表您的目标自定义语音。您需要让配音演员录制大约 10 秒的音频,用作训练数据。您还需要录制语音演员的同意声明。我们只需几分钟即可训练和提供克隆的模型。对于 Pre-GA 功能的重大 bug,不提供 SLA 支持。

第 1 步:创建用于克隆的训练数据

  1. 录制同意声明:为了遵守有关语音克隆的法律和道德准则,请使用适当的语言录制所需的同意声明,并将其作为单声道 WAV 文件(采用 LINEAR16 编码和 24 kHz 采样率)进行保存。(本人是此语音的所有者,并同意 Google 使用此语音来创建合成语音模型。)
  2. 录制初始音频:使用计算机麦克风以 24 kHz 采样率录制 10 秒的音频,并将其编码为 LINEAR16 编码的单声道 WAV 文件。确保录制过程中没有背景噪音。
  3. 存储音频文件:将录制的音频文件保存在指定的 Cloud Storage 位置。

第 2 步:创建克隆模型

您可以通过 Text-to-Speech 控制台创建克隆项目。

  1. Text-to-Speech 控制台中,前往合成页面

  2. 输入将合成为语音的文本,然后选择目标语言代码(仅适用于 en-US)。

  3. 选中自定义语音复选框,然后点击生成密钥

  4. 在打开的子任务中填写所有必填字段。

  5. 现在,合成表单中应该会显示一个语音克隆密钥:

    • 您可以保存此密钥以备日后使用,以便日后跳过“生成密钥”流程

  6. 切换高级设置部分,然后在采样率 (Hertz) 字段中输入 24000,然后点击合成

目前,我们仅合成 24kHz 的克隆语音。

您可以立即下载或播放音频,以便听听音频的声音。