Per migliorare l'accuratezza e le prestazioni della trascrizione e del riconoscimento vocale, l'API Cloud Speech-to-Text V1 sta aggiornando i restanti modelli vocali classici passando a modelli all'avanguardia basati su Conformer, senza interrompere la funzionalità dell'API. I modelli classici si riferiscono a quelli esposti nell'API V1 nei flag del modello command_and_search
, default
, phone_call
e video
. Si basano su modelli linguistici e acustici discreti e supportano determinati casi d'uso dell'API Speech-to-Text.
Dal lancio dell'architettura Conformer nel 2020 a Google Brain, abbiamo testato la nostra soluzione e sostituito gradualmente i nostri modelli API Speech-to-Text V1. In questo modo sono stati aumentati l'accuratezza, la robustezza e le prestazioni del dominio in una serie di casi d'uso. In questa pagina puoi trovare istruzioni su come trarre vantaggio dalla migrazione e su come attivare la migrazione precedente o successiva, a seconda delle esigenze.
Che cosa cambia
Dopo la scadenza della migrazione, inizieremo a indirizzare il traffico dai modelli attualmente esposti. Questi identificatori del modello rimarranno validi e continueranno a gestire il traffico, perché il reindirizzamento avviene internamente.
Questa tabella mostra il routing da eseguire quando viene eseguita la migrazione. Il reindirizzamento avverrà tra gli identificatori del modello già visibili. Sebbene non sia obbligatorio, puoi apportare modifiche al codice e testare il comportamento del modello nel tuo tempo libero.
Codice BCP-47 | Identificatore del modello attuale | single_utterance | Il traffico dell'identificatore modello è indirizzato |
---|---|---|---|
it-IT | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
telephony |
|
phone_call |
false |
telephony |
|
phone_call(use_enhanced=true) |
true |
telephony_short |
|
video |
false |
telephony |
|
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
latest_long |
|
phone_call(use_enhanced=true) |
true |
latest_short |
|
phone_call |
false |
latest_long |
Cronologia
In questa pagina sono disponibili tre opzioni di migrazione. A gennaio 2024, inizieremo a spostare gradualmente il traffico dai modelli classici a quelli basati su Conformer progetto per progetto, con una comunicazione individuale prima della migrazione. Entro giugno 2024, prevediamo di trasferire tutto il traffico esclusivamente ai modelli Conformer. Chiunque continui a richiedere i modelli classici verrà automaticamente reindirizzato ai modelli basati su Conformer corrispondenti.
Meccanismo di migrazione
I clienti possono eseguire l'attivazione prima o disattivare la migrazione ed eseguire la migrazione in un secondo momento seguendo queste istruzioni:
Opzione preferita: attiva ed esegui la migrazione in anticipo
Se vuoi eseguire l'attivazione proattiva, cambia l'identificatore del modello che stai utilizzando nell'API Speech-to-Text V1 con quello aggiornato, come indicato nella tabella precedente. La migrazione del progetto in modo proattivo ti dà il tempo di testare i modelli e sfruttare in anticipo la maggiore precisione e affidabilità.
Esegui la migrazione automatica
Per la migrazione automatica, non è richiesta alcuna azione da parte tua. Gli identificatori esistenti del modello dell'API Speech-to-Text V1 sono validi e spostiamo il traffico internamente. Al termine della migrazione del progetto, riceverai una comunicazione dal nostro team.
Per controllare lo stato della migrazione del progetto:
Vai alla console Speech di Google Cloud.
Vai alla sezione "Funzionalità in anteprima" nella barra di navigazione a sinistra.
Controlla lo stato dei tuoi modelli nella tabella.
Disattiva ed esegui la migrazione in un secondo momento
Se riscontri problemi con i modelli aggiornati e vuoi disattivare temporaneamente la migrazione, crea una richiesta di assistenza per Google Cloud. Quando crei la richiesta di assistenza, utilizza il titolo "Disattiva la migrazione conforme a Speech-to-Text", quindi fornisci gli ID progetto e il motivo della disattivazione.