为了提高转写和语音识别的准确率和性能,Cloud Speech-to-Text V1 API 正在将其余的传统语音模型更新为先进的基于 Conformer 的模型,而不会破坏 API 功能。传统模型是指 V1 API 中在 command_and_search
、default
、phone_call
和 video
模型标志下公开的模型。它们基于独立的声学和语言模型,并一直支持选定的 Speech-to-Text API 应用场景。
自 2020 年 Google Brain 推出 Conformer 架构以来,我们测试了解决方案,并逐步取代了 Speech-to-Text V1 API 模型。这样做可以提高在一系列应用场景中的领域内准确性、稳健性和性能。在本页面中,您可以找到有关如何从迁移获益的说明,以及如何根据需要选择尽早迁移或稍后迁移。
有何变化
在迁移截止期限之后,我们会开始将流量从当前公开的模型中迁出。这些模型标识符将保持有效并继续传送流量,因为重定向是在内部进行的。
下表显示了迁移生效时发生的路由。重定向将在已显示的模型标识符之间进行。虽然不是必需的,但是您可以自行更改代码并测试模型行为。
BCP-47 代码 | 当前模型标识符 | single_utterance | 定向到的模型标识符流量 |
---|---|---|---|
en-US | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
telephony |
|
phone_call |
false |
telephony |
|
phone_call(use_enhanced=true) |
true |
telephony_short |
|
video |
false |
telephony |
|
de-DE、en-AU、en-GB、en-IN、es-ES、es-US、fr-CA、fr-FR、it-IT、ja-JP、nl-NL、pt-BR | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
latest_long |
|
phone_call(use_enhanced=true) |
true |
latest_short |
|
phone_call |
false |
latest_long |
时间轴
本页面概述了三个迁移选项。2024 年 1 月,我们将开始逐步按项目将流量从传统模型迁移到基于 Conformer 的模型,并且会在迁移前逐一进行沟通。在 2024 年 6 月之前,我们预计会将所有流量都迁移到 Conformer 模型。任何请求传统模型的用户都会自动重新路由到基于 Conformer 的相应模型。
迁移机制
客户可以按照以下说明选择启用并尽早迁移,也可以选择停用并稍后迁移:
首选:选择启用并尽早迁移
如果您想要主动选择启用,请将您在 Speech-to-Text V1 API 中一直使用的模型标识符更改为更新后的模型标识符,如上表中所示。主动迁移项目让您能够测试模型并利用之前提高的准确率和稳健性。
选择停用并稍后迁移
如果您发现更新后的模型存在任何问题,并且想暂时停用迁移,请创建 Google Cloud 支持请求。创建支持请求时,请使用标题“选择停用 Speech-to-Text conformer 迁移”,并提供您的项目 ID 和停用原因。