Migre de modelos clássicos para modelos Conformer

Para melhorar a precisão e o desempenho da transcrição e do reconhecimento de voz, a API Cloud Speech-to-Text V1 está a atualizar os restantes modelos de voz clássicos para modelos baseados no Conformer de última geração de uma forma que não afeta a funcionalidade da API. Os modelos clássicos referem-se aos expostos na API V1 sob as flags de modelo command_and_search, default, phone_call e video. Baseiam-se em modelos acústicos e de linguagem discretos e têm vindo a suportar exemplos de utilização selecionados da API Speech-to-Text.

Desde a criação da arquitetura Conformer em 2020 no Google Brain, testámos a nossa solução e substituímos gradualmente os nossos modelos da API Speech-to-Text V1. Ao fazê-lo, aumentámos a precisão, a robustez e o desempenho no domínio numa variedade de exemplos de utilização. Nesta página, pode encontrar instruções sobre como pode beneficiar da migração e como pode optar por migrar mais cedo ou mais tarde, consoante as suas necessidades.

O que vai mudar

Após o prazo de migração, vamos começar a encaminhar o tráfego para longe dos modelos expostos atualmente. Estes identificadores de modelos vão permanecer válidos e continuar a publicar tráfego, porque o redirecionamento ocorre internamente.

Esta tabela mostra o encaminhamento que vai ocorrer quando a migração entrar em vigor. O redirecionamento ocorre entre os identificadores de modelos já visíveis. Embora não seja obrigatório, pode fazer alterações ao código e testar o comportamento do modelo quando quiser.

Código BCP-47 Identificador do modelo atual single_utterance Tráfego do identificador do modelo direcionado para
en-US command_and_search false latest_long
command_and_search true latest_short
default false telephony
phone_call false telephony
phone_call(use_enhanced=true) true telephony_short
video false telephony
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL e pt-BR command_and_search false latest_long
command_and_search true latest_short
default false latest_long
phone_call(use_enhanced=true) true latest_short
phone_call false latest_long

Linha cronológica

Tem três opções de migração, descritas nesta página. Em janeiro de 2024, vamos começar a transferir gradualmente o tráfego dos modelos clássicos para os baseados no Conformer, projeto a projeto, com comunicação individual antes da migração. Até junho de 2024, esperamos mudar todo o tráfego apenas para os modelos Conformer. Qualquer pessoa que ainda solicite os modelos clássicos é automaticamente reencaminhada para os modelos correspondentes baseados no Conformer.

Mecanismo de migração

Os clientes podem ativar a funcionalidade mais cedo ou desativá-la e migrar mais tarde seguindo estas instruções:

Preferencial: opte por participar e migre mais cedo

Se quiser ativar proativamente, altere o identificador do modelo que tem usado na API Speech-to-Text V1 pelo identificador atualizado, conforme indicado na tabela anterior. A migração proativa do seu projeto dá-lhe tempo para testar os modelos e tirar partido da precisão e robustez melhoradas mais cedo.

Desativar e migrar mais tarde

Se encontrar problemas com os modelos atualizados e quiser desativar temporariamente a migração, crie um Google Cloud registo de apoio técnico. Ao criar o registo de apoio técnico, use o título "Recusar a migração do conformador de voz para texto" e indique os IDs dos seus projetos e o motivo da recusa.