Conformer 模型（长和短）

通过 Speech-to-Text API 中的“最新”模型标签，您可以访问两个新的模型标签，在指定模型字段时可使用这些标签。这些模型旨在让您可以使用 Google 提供的最新语音技术和机器学习研究，并且可以比其他可用模型提供更高的语音识别准确率。但是，“最新”模型尚不支持其他可用模型支持的某些功能。

最新模型基于 Google 的 Conformer Speech Model 技术。如需了解详情，请参阅 Google 研究报告。

若要使用最新模型，您需要大致了解如何使用 Speech-to-Text 的 API 或界面。如果您是第一次使用该产品，请参阅我们的快速入门。

模型标识符

最新模型以两种不同的版本提供：

latest_short 模型适用于几秒时长的短话语。它有助于尝试捕获命令或其他单发定向语音用例。使用此模型时，服务会在检测到第一句话语并完成后停止转录音频。

此模型不支持按通道分别识别语音。虽然系统接受多声道音频，但只会处理并转录第一个声道的语音。
latest_long 模型适用于任何类型的长篇内容，例如媒体或自然言语和对话。

模型技术

最新模型的目标是直接引入最新的语音技术供 Google Cloud 用户使用。目前，最新模型基于 Google 的 Conformer Speech Model 技术，但未来可能会发生变化。如需了解详情，请参阅 Google 研究报告列表。

价格

latest_long 和 latest_short 模型按“标准”方案计费。如需了解详情，请参阅价格。

模型更新

最新模型基于快速发展的机器学习技术。因此，相较于其他模型，我们可能会更频繁地对最新模型执行更新。这些更新可能会添加额外的功能，也可能只是对准确率或延迟时间进行略微的改进。

语言

最新模型支持 20 多种语言和 50 多个变体。我们还会不断添加更多语言，因此请参阅语言以获取最新列表。

功能支持和限制

支持的功能因语言而异。如需查看支持的功能的完整列表，请参阅语言。

最新模型目前不支持以下功能：

置信度分数 - API 会返回一个值，但这不是真正的置信度分数。
区分 - 这两种最新模型都不支持区分。