Para melhorar a precisão e o desempenho da transcrição e do reconhecimento de fala, a API Cloud Speech-to-Text V1 está atualizando os modelos de fala clássicos restantes para modelos de última geração baseados em monitoramento de uma maneira que não corrompem a funcionalidade da API. Os modelos clássicos se referem àqueles expostos na API V1 sob as flags de modelo command_and_search
, default
, phone_call
e video
. Eles são baseados em modelos acústicos e de idioma discretos e têm suporte a alguns casos de uso da API Speech-to-Text.
Desde o lançamento da arquitetura Conformer em 2020 no Google Brain, testamos nossa solução e substituímos gradualmente os modelos de API Speech-to-Text V1. Isso aumentou a precisão, a robustez e o desempenho no domínio em diversos casos de uso. Nesta página, você encontra instruções sobre os benefícios da migração e como ativar a migração antecipada ou mais tarde, dependendo das suas necessidades.
O que vai mudar?
Depois do prazo de migração, começaremos a rotear o tráfego para longe dos modelos atualmente expostos. Esses identificadores de modelo vão permanecer válidos e continuar veiculando tráfego, porque o redirecionamento acontece internamente.
Esta tabela mostra o roteamento que vai acontecer quando a migração entrar em vigor. O redirecionamento acontecerá entre os identificadores do modelo já visíveis. Isso não é obrigatório, mas é possível fazer mudanças no código e testar o comportamento do modelo quando quiser.
Código BCP-47 | Identificador de modelo atual | single_utterance | O tráfego do identificador de modelo é direcionado para |
---|---|---|---|
en-US | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
telephony |
|
phone_call |
false |
telephony |
|
phone_call(use_enhanced=true) |
true |
telephony_short |
|
video |
false |
telephony |
|
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
latest_long |
|
phone_call(use_enhanced=true) |
true |
latest_short |
|
phone_call |
false |
latest_long |
Cronograma
Há três opções de migração, descritas nesta página. Em janeiro de 2024, vamos começar a transferir gradualmente o tráfego dos modelos clássicos para os baseados em conformidader, com comunicação individual antes da migração. Até junho de 2024, esperamos migrar todo o tráfego apenas para os modelos Conformer. As pessoas que ainda estiverem solicitando os modelos clássicos serão redirecionadas automaticamente para os modelos com base no Conformer correspondentes.
Mecanismo de migração
Os clientes podem ativar ou desativar o recurso antecipadamente e migrar depois seguindo estas instruções:
Preferencial: ativar e migrar antes
Se você quiser ativar proativamente, mude o identificador de modelo que está usando na API Speech-to-Text V1 pelo atualizado, conforme indicado na tabela anterior. Migrar seu projeto proativamente oferece tempo para testar os modelos e aproveitar a acurácia e robustez aprimoradas mais cedo.
Desativar e migrar mais tarde
Se você encontrar algum problema com os modelos atualizados e quiser recusar a migração temporariamente, crie um caso de suporte do Google Cloud. Ao criar o caso de suporte, use o título "Desativar a migração do conformer da Speech-to-Text" e forneça seus IDs do projeto e o motivo da desativação.