Migrar do modelo clássico para o Conformer

Para melhorar a acurácia e o desempenho da transcrição e do reconhecimento de fala, a API Cloud Speech-to-Text V1 está atualizando os modelos de fala clássicos restantes para modelos de última geração baseados em monitoramento de uma maneira que não corrompem a funcionalidade da API. Os modelos clássicos se referem àqueles expostos na API V1 sob as flags de modelo command_and_search, default, phone_call e video. Eles são baseados em modelos acústicos e de linguagem discretos e têm suporte a alguns casos de uso da API Speech-to-Text.

Desde o lançamento da arquitetura Conformer em 2020 no Google Brain, testamos nossa solução e substituímos gradualmente os modelos da API Speech-to-Text V1. Isso aumentou a acurácia no domínio, a robustez e o desempenho em diversos casos de uso. Nesta página, você encontra instruções sobre os benefícios da migração e como ativar a migração antecipada ou mais tarde, dependendo das suas necessidades.

O que vai mudar

Depois do prazo de migração, começaremos a rotear o tráfego para longe dos modelos atualmente expostos. Esses identificadores de modelo vão permanecer válidos e continuar veiculando tráfego, porque o redirecionamento acontece internamente.

Esta tabela mostra o roteamento que vai acontecer quando a migração entrar em vigor. O redirecionamento acontecerá entre os identificadores do modelo já visíveis. Isso não é obrigatório, mas é possível fazer mudanças no código e testar o comportamento do modelo quando você quiser.

Código BCP-47	Identificador de modelo atual	single_utterance	O tráfego do identificador de modelo é direcionado para
en-US	`command_and_search`	`false`	`latest_long`
	`command_and_search`	`true`	`latest_short`
	`default`	`false`	`telephony`
	`phone_call`	`false`	`telephony`
	`phone_call(use_enhanced=true)`	`true`	`telephony_short`
	`video`	`false`	`telephony`
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR	`command_and_search`	`false`	`latest_long`
	`command_and_search`	`true`	`latest_short`
	`default`	`false`	`latest_long`
	`phone_call(use_enhanced=true)`	`true`	`latest_short`
	`phone_call`	`false`	`latest_long`

Cronograma

Há três opções de migração, descritas nesta página. Em janeiro de 2024, vamos começar a transferir gradualmente o tráfego dos modelos clássicos para os baseados no Conformer, com divulgação individual antes da migração. Até junho de 2024, esperamos migrar todo o tráfego para apenas os modelos do Conformer. As pessoas que ainda estiverem solicitando os modelos clássicos serão redirecionadas automaticamente para os modelos baseados no Conformer correspondentes.

Mecanismo de migração

Os clientes podem ativar ou desativar o recurso antecipadamente e migrar depois seguindo estas instruções:

Preferencial: ativação e migração antecipada

Se você quiser ativar proativamente, mude o identificador de modelo que está usando na API Speech-to-Text V1 pelo atualizado, conforme indicado na tabela anterior. Migrar seu projeto proativamente oferece tempo para testar os modelos e aproveitar a acurácia e robustez aprimoradas mais cedo.

Desativação e migração tardia

Se você encontrar algum problema com os modelos atualizados e quiser recusar a migração temporariamente, crie um caso de suporte do Google Cloud . Ao criar o caso de suporte, use o título "Desativar a migração do Conformer do Speech-to-Text" e forneça seus IDs do projeto e o motivo da desativação.

Migrar do modelo clássico para o Conformer Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.