Conformer 模型(长和短)

通过 Speech-to-Text API 中的“最新”模型标签,您可以访问两个新的模型标签,在指定模型字段时可使用这些标签。这些模型旨在让您可以使用 Google 提供的最新语音技术和机器学习研究,并且可以比其他可用模型提供更高的语音识别准确率。但是,“最新”模型尚不支持其他可用模型支持的某些功能。

最新模型基于 Google 的 Conformer Speech Model 技术。如需了解详情,请参阅 Google 研究报告

若要使用最新模型,您需要大致了解如何使用 Speech-to-Text 的 API 或界面。如果您是第一次使用该产品,请参阅我们的快速入门

模型标识符

最新模型以两种不同的版本提供:

  • latest_short 模型适用于几秒时长的短话语。它有助于尝试捕获命令或其他单发定向语音用例。使用此模型时,服务会在检测到第一句话语并完成后停止转录音频。

    此模型不支持按通道分别识别语音。虽然系统接受多声道音频,但只会处理并转录第一个声道的语音。

  • latest_long 模型适用于任何类型的长篇内容,例如媒体或自然言语和对话。

模型技术

最新模型的目标是直接引入最新的语音技术供 Google Cloud 用户使用。目前,最新模型基于 Google 的 Conformer Speech Model 技术,但未来可能会发生变化。如需了解详情,请参阅 Google 研究报告列表。

价格

latest_longlatest_short 模型按“标准”方案计费。如需了解详情,请参阅价格

模型更新

最新模型基于快速发展的机器学习技术。因此,相较于其他模型,我们可能会更频繁地对最新模型执行更新。这些更新可能会添加额外的功能,也可能只是对准确率或延迟时间进行略微的改进。

语言

最新模型支持 20 多种语言和 50 多个变体。我们还会不断添加更多语言,因此请参阅语言以获取最新列表。

功能支持和限制

支持的功能因语言而异。如需查看支持的功能的完整列表,请参阅语言

最新模型目前不支持以下功能:

  • 置信度分数 - API 会返回一个值,但这不是真正的置信度分数。

  • 区分 - 这两种最新模型都不支持区分。