训练自定义语音可能是一次激动人心的体验。为确保生成的模型符合您的愿景,请按照以下说明操作,并考虑与配音合作伙伴或导演合作。
虽然一些风格变化有助于使语音变得生动有趣,但在整个录音中性能一致性非常重要。任何在精神、人物形象、投影水平或气泡音(例如,由于疲劳)方面有明显变化的录音都应重新录制,最好是在配音演员稍作休整之后。应定期为演员和导演播放匹配参考文件,以确保所有录制内容的一致性。
脚本
我们建议您使用符合人物形象和业务需求的脚本。如果您没有脚本,可以使用 Gemini 构建一个脚本,也可以使用我们的脚本(我们提供每种支持的语言版本):de-DE | en-US | en-GB | es-US | es-ES | en-AU | fr-CA | fr-FR | it-IT | ja-JP | pt-BR
如果您构建自己的脚本,则格式应遵循类似的模式:
- 500 条单独的录音(所有录音文件的总时长应在 20 到 30 分钟左右。)
- 每行大约一个录音
数据格式设置
您需要提供一个 csv 文件,以便音频与脚本正确对齐。 请参阅示例 CSV 文件。
- 每条录音只应包含脚本中的一行,以 WAV 文件的形式保存。将第一个文件命名为
0001.wav
,第二个文件命名为0002.wav
,依此类推。 - 第 1 列:无标题。音频文件中的脚本行。
- WAV 音频文件的 gcloud storage URI。例如:
gs://YOUR_BUCKET_NAME/0001.wav
。 - 将 CSV 与音频准确对齐,使每个转写行都有相应的音频文件,并且没有空白行。
- 提示:仅包含转写所说的内容。
- 不要添加行号 (5. “彩虹在哪里?”)或非语言代码(“邮政编码是 08654”应该是“邮政编码是零八六五四”)。
- 很多时候,最终说出的词语通常与初始脚本不同。为获得最佳质量,请务必将 CSV 调整为最后说出的字词,而不是复制和粘贴脚本本身。
- 如果您看到一系列由空格分隔的字符,请逐个读出每个字符。逐个读出“optimize”中的每个字母。
录制建议
这些是理想的录制要求。虽然模型仍然可以在不满足这些要求的情况下进行训练,但我们无法保证模型的质量。最重要但通常被忽视的要求是:
- 标准音频文件格式(48kHz/24bit、WAV)。可采用更高的采样率录制音频,然后降采样至 48kHz/24bit。请勿对较低采样率的音频进行上采样。
- 目标平均音量为 -23 LUFS +- 2 (ITU-R BS.1770-3)。
录制规范
- 标准音频文件格式(48kHz/24bit、WAV)。可采用更高的采样率录制音频,然后降采样至 48kHz/24bit。请勿对较低采样率的音频进行上采样。
- 录制音频时不能进行有损压缩。必须使用带有 WAV 标头的 Linear PCM (LPCM) 格式。提供单声道音频。
- 高品质的专业录音室,低反射时间 (RT) 或衰减时间(房间声音)。
- 任何反射表面都应贴上声学处理泡沫,直到 RT 时间尽可能低。
- 专业大膜片电容式麦克风(U87、TLM 193 或类似产品)。
- 高信噪比 (SNR),电平管理和麦克风位置合适。
- 音频文件的开头和结尾应该有短暂的静音(> 100 毫秒并 < 500 毫秒)。请不要附加数字静音(即附加序列 0)。
- 音频应正常录制,不采用均衡、压缩或其他 DSP。
- 确保录音清晰,没有明显的背景噪音或声道噪音。
- 要避免的具体语言成分:气泡音/嘶哑音、呼吸声、句子中间出现卡顿或不当停顿
匹配参考文件
参考录制(即“匹配文件”)是录制项目开始时录制的文件。这些文件用于整个录制项目,不应更改。它们代表了人物形象、音量、精神、节奏、发音、语调和频谱属性方面性能的标志特征。匹配文件用作所有后续录音的参考。它在整个录制会话中用于校准信号捕获,并提供性能指导和一致性。
创建匹配参考文件
录制匹配文件的过程由导演(指示所寻找性能的类型)与录音工程师(确保在匹配文件中捕获适当的音频规范级别)协作完成。记录的所有音频都应符合匹配文件的特征。使用这些文件可确保整个录制过程中以下参数的一致性:
- 人物形象和风格的连续性
- 表演的基调
- 语速
- 数据量
后续步骤
现在数据已准备就绪,您可以创建自定义语音模型了。