训练数据要求

训练自定义语音可能是一次激动人心的体验。为确保生成的模型符合您的愿景，请按照以下说明操作，并考虑与配音合作伙伴或导演合作。

虽然一些风格变化有助于使语音变得生动有趣，但在整个录音中性能一致性非常重要。任何在精神、人物形象、投影水平或气泡音（例如，由于疲劳）方面有明显变化的录音都应重新录制，最好是在配音演员稍作休整之后。应定期为演员和导演播放匹配参考文件，以确保所有录制内容的一致性。

脚本

如果您构建自己的脚本，则格式应遵循类似的模式：

您需要提供一个 csv 文件，以便音频与脚本正确对齐。请参阅示例 CSV 文件。

每条录音只应包含脚本中的一行，以 WAV 文件的形式保存。将第一个文件命名为 0001.wav，第二个文件命名为 0002.wav，依此类推。
第 1 列：无标题。音频文件中的脚本行。
WAV 音频文件的 gcloud storage URI。例如：gs://YOUR_BUCKET_NAME/0001.wav。
将 CSV 与音频准确对齐，使每个转写行都有相应的音频文件，并且没有空白行。
提示：仅包含转写所说的内容。
- 不要添加行号 (5. “彩虹在哪里？”）或非语言代码（“邮政编码是 08654”应该是“邮政编码是零八六五四”）。
- 很多时候，最终说出的词语通常与初始脚本不同。为获得最佳质量，请务必将 CSV 调整为最后说出的字词，而不是复制和粘贴脚本本身。
- 如果您看到一系列由空格分隔的字符，请逐个读出每个字符。逐个读出“optimize”中的每个字母。

这些是理想的录制要求。虽然模型仍然可以在不满足这些要求的情况下进行训练，但我们无法保证模型的质量。最重要但通常被忽视的要求是：

参考录制（即“匹配文件”）是录制项目开始时录制的文件。这些文件用于整个录制项目，不应更改。它们代表了人物形象、音量、精神、节奏、发音、语调和频谱属性方面性能的标志特征。匹配文件用作所有后续录音的参考。它在整个录制会话中用于校准信号捕获，并提供性能指导和一致性。

录制匹配文件的过程由导演（指示所寻找性能的类型）与录音工程师（确保在匹配文件中捕获适当的音频规范级别）协作完成。记录的所有音频都应符合匹配文件的特征。使用这些文件可确保整个录制过程中以下参数的一致性：