最新模型简介

通过 Speech-to-Text API 中的“最新”模型标签,您可以访问两个新的模型标签,在指定模型字段时可使用这些标签。这些模型旨在让您可以使用 Google 提供的最新语音技术和机器学习研究,并且可以比其他可用模型提供更高的语音识别准确率。但是,“最新”模型尚不支持其他可用模型支持的某些功能。

最新模型基于 Google 的 Conformer Speech Model 技术。如需了解详情,请参阅 Google 研究出版物

使用最新模型需要大致了解如何使用 Speech-to-Text API 或界面。如果您是第一次使用,请参阅我们的快速入门

模型标识符

最新模型以两种不同的版本提供:

  • latest_short 模型适用于几秒时长的短话语。在尝试捕获命令或其他单次定向语音用例时,此模型非常有用。请考虑使用 latest_short 而非 command_and_search 模型。

  • latest_long 模型适用于任何类型的长篇内容,例如媒体或自然言语和对话。考虑使用 latest_long 代替 video,尤其是在目标语言不支持 video 的情况下。您还可以使用 latest_long 代替 default 模型。

模型技术

最新模型的目标是将最新的语音技术直接提供给 Google Cloud 用户。我们目前的最新模型基于 Google 的 Conformer Speech Model 技术,但未来可能会发生变化。如需了解详情,请参阅 Google 研究出版物列表。

价格

latest_longlatest_short 模型按“标准”计费,并且使用量和 command_and_searchdefault 模型相同。如需了解详情,请参阅价格

模型更新

最新模型基于快速发展的机器学习技术。因此,我们可能比其他模型更频繁地执行模型更新或刷新。这些更新可以添加其他功能,或对准确率或延迟时间稍作更改。

语言

最新模型支持 20 多种语言和 50 多个变体。我们会不断添加语言,因此请参阅语言以获取最新列表。

功能支持和限制

功能支持因语言而异。如需查看受支持功能的完整列表,请参阅语言

最新模型目前不支持以下功能:

  • 置信度分数 - API 会返回一个值,但这不是真正的置信度分数。

  • 自定义调整 - 只有 en-us latest_short 模型支持自定义调整。

  • 区分 - 这两种最新模型都不支持区分。

模型服务等级协议

最新模型被视为 Speech-to-Text API 的正式版部分。 因此,它们支持的功能在 v1 API 中可用,并且符合相同的服务等级协议以及为正式版产品和功能提供的其他保护。