Cloud Speech-to-Text 微调

概览

Speech-to-Text 微调使您能够使用独特的音频和文本数据来定制现有语音模型，以提高语音识别服务的准确性。

语音模型微调可用于增强基本语音模型，以改善苛刻声音条件下的转写识别，包括汽笛声、嘈杂噪音、过度的背景噪音（包括音乐或其他对话），以及独特的词汇（包括特定于客户的产品名称或独特的术语和重音符号）。

语音模型微调在我们的 Google Cloud 控制台和 API 中都可以访问，它支持在无代码集成环境中训练、评估和部署专用语音模型。在训练时，您只能提供代表音频条件的音频数据，而没有参考转写作为训练集。但是，您需要在评估集中提供音频数据及其参考转写。

如需在应用中利用语音模型微调，请按照以下资源部署模型：