为语音应用创建自定义语音模型

您可以在 Text-to-Speech 界面中创建自己的自定义语音模型。

前提条件

  1. 启用 Text-to-Speech API。
  2. 按照训练数据要求录制音频。
  3. 创建 Cloud Storage 存储桶。
  4. 按照训练数据要求指定的格式将音频文件上传到新的存储桶。(0001.wav、0002.wav...0200.wav 等)。

训练新的自定义语音模型

  1. 打开 Text-to-Speech 界面中的 Custom Voice 标签页。
  2. 点击屏幕顶部附近的创建
  3. 为您的语音模型命名。
  4. 支持的语言下拉列表中指定语言。
  5. 从前提条件第 4 步中的存储桶配置中选择正确的 CSV 文件。
  6. 上传语音人才的同意声明。示例:“本人是此语音的所有者,并同意 Google 使用此语音来创建合成语音模型。”
  7. 点击创建以开始创建模型。模型创建过程最多可能需要 3 天时间。
  8. 如需查看训练作业的状态,请在右上角导航标题中查看控制台通知。

后续步骤

模型训练完成后,控制台中会提供示例输出音频文件。您可以使用这些文件对模型的质量进行初始评估。如果满足您的需求,请与您的销售团队联系,以获取模型部署方面的帮助。部署需要两到三周的时间,因此我们建议快速进行评估并尽早沟通。