选择转录模型

本页面介绍了如何将特定的机器学习模型用于发送到 Speech-to-Text 的音频转录请求。

转录模型

Speech-to-Text 会将输入与多个机器学习模型中的一个进行比较,以检测音频剪辑中的字词。每个模型都通过分析数百万个示例(在此是指大量实际的人物说话录音)进行过训练。

Speech-to-Text 具有众多专业模型,这些模型均通过特定来源的音频进行过训练。当将这些模型用来处理与它们所训练的数据类型类似的音频数据时,可以提供更好的结果。

例如,Speech-to-Text 具有一个经过训练的转录模型,用于识别在电话中录制的语音。例如,当 Speech-to-Text 使用 telephony 模型来转录电话音频时,所生成的转录结果会比使用 latest_longmedical_dictation 模型转录的电话音频结果更为准确。

下表显示了可用于 Speech-to-Text 的转写模型。

模型名称 说明
long 此模型适用于任何类型的长篇内容,例如媒体或自然言语和对话。请考虑使用此模型来代替“视频”或“默认”模型,尤其是在未以您的目标语言提供的情况下。
short 该模型适合用于几秒钟的短语音。它有助于尝试捕获命令或其他单发定向语音应用场景。请考虑使用此模型来代替命令和搜索模型。
telephony 此模型用于源自音频通话的音频,通常以 8 kHz 的采样率录制。非常适合客户服务、电话会议和自动化自助服务终端应用。
medical_dictation 此模型用于对医疗专家口述的备注进行转写,例如一位医生对某位患者的验血结果进行口述备注。
medical_conversation 此模型用于医疗服务提供方(例如医生或护士)与患者之间的对话。当提供方和患者都在讲话时,使用“medical_conversation”模型。系统会自动检测每个讲话人说出的字词并自动为其添加标签。
chirp 通用大语音模型 (USM) 用于提供先进的具有各种语言内容和多语言功能的非流式转写。
chirp_telephony 通用大语音模型 (USM) 针对源自电话通话的音频(通常以 8 kHz 的采样率录制)进行了微调。
chirp_2 使用由 Gemini 提供支持的新一代通用大型语音模型 (USM),进行不同语言内容和多语言功能的非流式传输转写和翻译。

选择用于音频转写的模型

模型由用于识别请求的识别器指定。调用 speech/projects.locations.recognizers/create 以创建识别器,并使用 model 字段指定模型。您可以在支持的语言表中找到每种语言的有效模型。