Per migliorare l'accuratezza e le prestazioni della trascrizione e del riconoscimento vocale, l'API Cloud Speech-to-Text versione 1 aggiorna i restanti modelli vocali classici ai modelli basati su Conformer all'avanguardia in modo da non interrompere la funzionalità dell'API. Per modelli classici si intendono quelli esposti nell'API v1 sotto i flag dei modelli command_and_search
, default
, phone_call
e video
. Si basano su modelli acustici e linguistici discreti e supportano casi d'uso selezionati dell'API Speech-to-Text.
Dal lancio dell'architettura Conformer nel 2020 in Google Brain, abbiamo testato la nostra soluzione e sostituito gradualmente i modelli dell'API Speech-to-Text 1.0. In questo modo, sono aumentate l'accuratezza, la robustezza e le prestazioni in-domain in una serie di casi d'uso. In questa pagina puoi trovare le istruzioni su come trarre vantaggio dalla migrazione e su come attivarla prima o dopo, a seconda delle tue esigenze.
Che cosa cambia
Dopo la scadenza della migrazione, inizieremo a reindirizzare il traffico lontano dai modelli attualmente esposti. Questi identificatori modello rimarranno validi e continueranno a gestire il traffico, perché il reindirizzamento avviene internamente.
Questa tabella mostra il routing da eseguire quando la migrazione viene applicata. Il reindirizzamento avverrà tra gli identificatori del modello già visibili. Sebbene non sia obbligatorio, puoi apportare modifiche al codice e testare il comportamento del modello in qualsiasi momento.
Codice BCP-47 | Identificatore del modello attuale | single_utterance | Destinazione del traffico degli identificatori modello |
---|---|---|---|
en-US | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
telephony |
|
phone_call |
false |
telephony |
|
phone_call(use_enhanced=true) |
true |
telephony_short |
|
video |
false |
telephony |
|
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
latest_long |
|
phone_call(use_enhanced=true) |
true |
latest_short |
|
phone_call |
false |
latest_long |
Cronologia
Hai a disposizione tre opzioni di migrazione, descritte in questa pagina. A gennaio 2024 inizieremo a spostare gradualmente il traffico dai modelli classici a quelli basati su Conformer, progetto per progetto, con una comunicazione individuale prima della migrazione. Entro giugno 2024 prevediamo di trasferire tutto il traffico solo ai modelli Conformer. Chiunque richieda ancora i modelli classici verrà reindirizzato automaticamente ai modelli basati su Conformer corrispondenti.
Meccanismo di migrazione
I clienti possono attivare la funzionalità in anticipo o disattivarla ed eseguire la migrazione in un secondo momento seguendo queste istruzioni:
Opzione preferita: attiva e esegui la migrazione in anticipo
Se vuoi attivare la funzionalità in modo proattivo, modifica l'identificatore del modello che hai utilizzato nell'API Speech-to-Text V1 con quello aggiornato, come indicato nella tabella precedente. La migrazione del progetto in modo proattivo ti dà il tempo di testare i modelli e sfruttare prima la precisione e la robustezza migliorate.
Disattivare e eseguire la migrazione in un secondo momento
Se riscontri problemi con i modelli aggiornati e vuoi disattivare temporaneamente la migrazione, crea una Google Cloud richiesta di assistenza. Quando crei la richiesta di assistenza, utilizza il titolo "Disattiva la migrazione del conformatore Speech-to-Text" e fornisci gli ID progetto e il motivo della disattivazione.