Migrar do modelo clássico para o Conformer

Para melhorar a precisão e o desempenho da transcrição e do reconhecimento de fala, a API Cloud Speech-to-Text V1 está atualizando os modelos de fala clássicos restantes para modelos de última geração baseados em monitoramento de uma maneira que não corrompem a funcionalidade da API. Os modelos clássicos se referem àqueles expostos na API V1 sob as flags de modelo command_and_search, default, phone_call e video. Eles são baseados em modelos acústicos e de idioma discretos e têm suporte a alguns casos de uso da API Speech-to-Text.

Desde o lançamento da arquitetura Conformer em 2020 no Google Brain, testamos nossa solução e substituímos gradualmente os modelos de API Speech-to-Text V1. Isso aumentou a precisão, a robustez e o desempenho no domínio em diversos casos de uso. Nesta página, você encontra instruções sobre os benefícios da migração e como ativar a migração antecipada ou mais tarde, dependendo das suas necessidades.

O que vai mudar?

Depois do prazo de migração, começaremos a rotear o tráfego para longe dos modelos atualmente expostos. Esses identificadores de modelo vão permanecer válidos e continuar veiculando tráfego, porque o redirecionamento acontece internamente.

Esta tabela mostra o roteamento que vai acontecer quando a migração entrar em vigor. O redirecionamento acontecerá entre os identificadores do modelo já visíveis. Isso não é obrigatório, mas é possível fazer mudanças no código e testar o comportamento do modelo quando quiser.

Código BCP-47 Identificador de modelo atual single_utterance O tráfego do identificador de modelo é direcionado para
en-US command_and_search false latest_long
command_and_search true latest_short
default false telephony
phone_call false telephony
phone_call(use_enhanced=true) true telephony_short
video false telephony
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR command_and_search false latest_long
command_and_search true latest_short
default false latest_long
phone_call(use_enhanced=true) true latest_short
phone_call false latest_long

Cronograma

Há três opções de migração, descritas nesta página. Em janeiro de 2024, vamos começar a transferir gradualmente o tráfego dos modelos clássicos para os baseados em conformidader, com comunicação individual antes da migração. Até junho de 2024, esperamos migrar todo o tráfego apenas para os modelos Conformer. As pessoas que ainda estiverem solicitando os modelos clássicos serão redirecionadas automaticamente para os modelos com base no Conformer correspondentes.

Mecanismo de migração

Os clientes podem ativar ou desativar o recurso antecipadamente e migrar depois seguindo estas instruções:

Preferencial: ativar e migrar antes

Se você quiser ativar proativamente, mude o identificador de modelo que está usando na API Speech-to-Text V1 pelo atualizado, conforme indicado na tabela anterior. Migrar seu projeto proativamente oferece tempo para testar os modelos e aproveitar a acurácia e robustez aprimoradas mais cedo.

Migrar automaticamente

Para migrar automaticamente, você não precisa fazer nada. Os identificadores do modelo da API Speech-to-Text V1 são válidos e transferimos o tráfego internamente. Você vai receber uma comunicação da nossa equipe quando o projeto for migrado.

Para verificar o status da migração do projeto, faça o seguinte:

  1. Acesse o Console de fala do Google Cloud.

  2. Vá até a seção "Recursos da pré-visualização" na barra de navegação à esquerda.

  3. Verifique o status dos seus modelos na tabela.

Desativar e migrar mais tarde

Se você encontrar algum problema com os modelos atualizados e quiser recusar a migração temporariamente, crie um caso de suporte do Google Cloud. Ao criar o caso de suporte, use o título "Desativar a migração do conformer da Speech-to-Text" e forneça seus IDs do projeto e o motivo da desativação.