Eseguire la migrazione dai modelli classici a quelli Conformer

Per migliorare l'accuratezza e le prestazioni della trascrizione e del riconoscimento vocale, l'API Cloud Speech-to-Text versione 1 aggiorna i restanti modelli vocali classici ai modelli basati su Conformer all'avanguardia in modo da non interrompere la funzionalità dell'API. Per modelli classici si intendono quelli esposti nell'API v1 sotto i flag dei modelli command_and_search, default, phone_call e video. Si basano su modelli acustici e linguistici discreti e supportano casi d'uso selezionati dell'API Speech-to-Text.

Dal lancio dell'architettura Conformer nel 2020 in Google Brain, abbiamo testato la nostra soluzione e sostituito gradualmente i modelli dell'API Speech-to-Text 1.0. In questo modo, sono aumentate l'accuratezza, la robustezza e le prestazioni in-domain in una serie di casi d'uso. In questa pagina puoi trovare le istruzioni su come trarre vantaggio dalla migrazione e su come attivarla prima o dopo, a seconda delle tue esigenze.

Che cosa cambia

Dopo la scadenza della migrazione, inizieremo a reindirizzare il traffico lontano dai modelli attualmente esposti. Questi identificatori modello rimarranno validi e continueranno a gestire il traffico, perché il reindirizzamento avviene internamente.

Questa tabella mostra il routing da eseguire quando la migrazione viene applicata. Il reindirizzamento avverrà tra gli identificatori del modello già visibili. Sebbene non sia obbligatorio, puoi apportare modifiche al codice e testare il comportamento del modello in qualsiasi momento.

Codice BCP-47 Identificatore del modello attuale single_utterance Destinazione del traffico degli identificatori modello
en-US command_and_search false latest_long
command_and_search true latest_short
default false telephony
phone_call false telephony
phone_call(use_enhanced=true) true telephony_short
video false telephony
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR command_and_search false latest_long
command_and_search true latest_short
default false latest_long
phone_call(use_enhanced=true) true latest_short
phone_call false latest_long

Cronologia

Hai a disposizione tre opzioni di migrazione, descritte in questa pagina. A gennaio 2024 inizieremo a spostare gradualmente il traffico dai modelli classici a quelli basati su Conformer, progetto per progetto, con una comunicazione individuale prima della migrazione. Entro giugno 2024 prevediamo di trasferire tutto il traffico solo ai modelli Conformer. Chiunque richieda ancora i modelli classici verrà reindirizzato automaticamente ai modelli basati su Conformer corrispondenti.

Meccanismo di migrazione

I clienti possono attivare la funzionalità in anticipo o disattivarla ed eseguire la migrazione in un secondo momento seguendo queste istruzioni:

Opzione preferita: attiva e esegui la migrazione in anticipo

Se vuoi attivare la funzionalità in modo proattivo, modifica l'identificatore del modello che hai utilizzato nell'API Speech-to-Text V1 con quello aggiornato, come indicato nella tabella precedente. La migrazione del progetto in modo proattivo ti dà il tempo di testare i modelli e sfruttare prima la precisione e la robustezza migliorate.

Disattivare e eseguire la migrazione in un secondo momento

Se riscontri problemi con i modelli aggiornati e vuoi disattivare temporaneamente la migrazione, crea una Google Cloud richiesta di assistenza. Quando crei la richiesta di assistenza, utilizza il titolo "Disattiva la migrazione del conformatore Speech-to-Text" e fornisci gli ID progetto e il motivo della disattivazione.