概览
Speech-to-Text 微调使您能够使用独特的音频和文本数据来定制现有语音模型,以提高语音识别服务的准确性。
语音模型微调可用于增强基本语音模型,以改善苛刻声音条件下的转写识别,包括汽笛声、嘈杂噪音、过度的背景噪音(包括音乐或其他对话),以及独特的词汇(包括特定于客户的产品名称或独特的术语和重音符号)。
语音模型微调在我们的 Google Cloud 控制台和 API 中都可以访问,它支持在无代码集成环境中训练、评估和部署专用语音模型。在训练时,您只能提供代表音频条件的音频数据,而没有参考转写作为训练集。但是,您需要在评估集中提供音频数据及其参考转写。
后续步骤
如需在应用中利用语音模型微调,请按照以下资源部署模型: