通过 Speech-to-Text API 中的“最新”模型标签,您可以访问两个新的模型标签,在指定模型字段时可使用这些标签。这些模型旨在让您可以使用 Google 提供的最新语音技术和机器学习研究,并且可以比其他可用模型提供更高的语音识别准确率。但是,“最新”模型尚不支持其他可用模型支持的某些功能。
最新模型基于 Google 的 Conformer Speech Model 技术。如需了解详情,请参阅 Google 研究报告。
若要使用最新模型,您需要大致了解如何使用 Speech-to-Text 的 API 或界面。如果您是第一次使用该产品,请参阅我们的快速入门。
模型标识符
最新模型以两种不同的版本提供:
latest_short
模型适用于几秒时长的短话语。它有助于尝试捕获命令或其他单发定向语音用例。考虑使用latest_short
而非command_and_search
模型。latest_long
模型适用于任何类型的长篇内容,例如媒体或自然言语和对话。 考虑使用latest_long
来代替video
,尤其是在目标语言不支持video
的情况下。您还可以使用latest_long
来代替default
模型。
模型技术
最新模型的目标是直接引入最新的语音技术供 Google Cloud 用户使用。目前,最新模型基于 Google 的 Conformer Speech Model 技术,但未来可能会发生变化。如需了解详情,请参阅 Google 研究报告列表。
价格
latest_long
和 latest_short
模型按“标准”计费,并且使用量和 command_and_search
或 default
模型相同。如需了解详情,请参阅价格。
模型更新
最新模型基于快速发展的机器学习技术。因此,相较于其他模型,我们可能会更频繁地对最新模型执行更新。这些更新可能会添加额外的功能,也可能只是对准确率或延迟时间进行略微的改进。
语言
最新模型支持 20 多种语言和 50 多个变体。我们还会不断添加更多语言,因此请参阅语言以获取最新列表。
功能支持和限制
支持的功能因语言而异。如需查看支持的功能的完整列表,请参阅语言。
最新模型目前不支持以下功能:
- 置信度分数 - API 会返回一个值,但这不是真正的置信度分数。
模型服务等级协议
最新模型被视为 Speech-to-Text API 的正式版部分。因此,它们支持的功能在 v1 API 中提供,并符合适用于正式版产品和功能的相同服务等级协议和其他保护措施。