Esegui la migrazione dai modelli classici a quelli conformi

Per migliorare l'accuratezza e le prestazioni della trascrizione e del riconoscimento vocale, l'API Cloud Speech-to-Text V1 sta aggiornando i restanti modelli vocali classici passando a modelli all'avanguardia basati su Conformer, senza interrompere la funzionalità dell'API. I modelli classici si riferiscono a quelli esposti nell'API V1 nei flag del modello command_and_search, default, phone_call e video. Si basano su modelli linguistici e acustici discreti e supportano determinati casi d'uso dell'API Speech-to-Text.

Dal lancio dell'architettura Conformer nel 2020 a Google Brain, abbiamo testato la nostra soluzione e sostituito gradualmente i nostri modelli API Speech-to-Text V1. In questo modo sono stati aumentati l'accuratezza, la robustezza e le prestazioni del dominio in una serie di casi d'uso. In questa pagina puoi trovare istruzioni su come trarre vantaggio dalla migrazione e su come attivare la migrazione precedente o successiva, a seconda delle esigenze.

Che cosa cambia

Dopo la scadenza della migrazione, inizieremo a indirizzare il traffico dai modelli attualmente esposti. Questi identificatori del modello rimarranno validi e continueranno a gestire il traffico, perché il reindirizzamento avviene internamente.

Questa tabella mostra il routing da eseguire quando viene eseguita la migrazione. Il reindirizzamento avverrà tra gli identificatori del modello già visibili. Sebbene non sia obbligatorio, puoi apportare modifiche al codice e testare il comportamento del modello nel tuo tempo libero.

Codice BCP-47 Identificatore del modello attuale single_utterance Il traffico dell'identificatore modello è indirizzato
it-IT command_and_search false latest_long
command_and_search true latest_short
default false telephony
phone_call false telephony
phone_call(use_enhanced=true) true telephony_short
video false telephony
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR command_and_search false latest_long
command_and_search true latest_short
default false latest_long
phone_call(use_enhanced=true) true latest_short
phone_call false latest_long

Cronologia

In questa pagina sono disponibili tre opzioni di migrazione. A gennaio 2024, inizieremo a spostare gradualmente il traffico dai modelli classici a quelli basati su Conformer progetto per progetto, con una comunicazione individuale prima della migrazione. Entro giugno 2024, prevediamo di trasferire tutto il traffico esclusivamente ai modelli Conformer. Chiunque continui a richiedere i modelli classici verrà automaticamente reindirizzato ai modelli basati su Conformer corrispondenti.

Meccanismo di migrazione

I clienti possono eseguire l'attivazione prima o disattivare la migrazione ed eseguire la migrazione in un secondo momento seguendo queste istruzioni:

Opzione preferita: attiva ed esegui la migrazione in anticipo

Se vuoi eseguire l'attivazione proattiva, cambia l'identificatore del modello che stai utilizzando nell'API Speech-to-Text V1 con quello aggiornato, come indicato nella tabella precedente. La migrazione del progetto in modo proattivo ti dà il tempo di testare i modelli e sfruttare in anticipo la maggiore precisione e affidabilità.

Esegui la migrazione automatica

Per la migrazione automatica, non è richiesta alcuna azione da parte tua. Gli identificatori esistenti del modello dell'API Speech-to-Text V1 sono validi e spostiamo il traffico internamente. Al termine della migrazione del progetto, riceverai una comunicazione dal nostro team.

Per controllare lo stato della migrazione del progetto:

  1. Vai alla console Speech di Google Cloud.

  2. Vai alla sezione "Funzionalità in anteprima" nella barra di navigazione a sinistra.

  3. Controlla lo stato dei tuoi modelli nella tabella.

Disattiva ed esegui la migrazione in un secondo momento

Se riscontri problemi con i modelli aggiornati e vuoi disattivare temporaneamente la migrazione, crea una richiesta di assistenza per Google Cloud. Quando crei la richiesta di assistenza, utilizza il titolo "Disattiva la migrazione conforme a Speech-to-Text", quindi fornisci gli ID progetto e il motivo della disattivazione.