I tag modello "più recenti" nell'API Speech-to-Text consentono di accedere a due nuovi tag modello che possono essere utilizzati quando specifichi il campo del modello. Questi modelli sono progettati per darti accesso alle ultime ricerche di Google in materia di tecnologia vocale e machine learning e possono offrire una maggiore precisione per il riconoscimento vocale rispetto ad altri modelli disponibili. Tuttavia, alcune funzionalità supportate da altri modelli disponibili non sono ancora supportate dai modelli "più recenti".
I modelli più recenti si basano sulla tecnologia del modello vocale Conformer di Google. Per scoprire di più, consulta Pubblicazioni di Google Research.
L'utilizzo dei modelli più recenti richiede una conoscenza generale dell'API o dell'interfaccia utente Speech-to-Text. Consulta le nostre guide rapide se è la prima volta che lo utilizzi.
Identificatori modello
I modelli più recenti sono disponibili in due versioni diverse:
Il modello
latest_short
è destinato a brevi frasi di pochi secondi. È utile per provare a acquisire comandi o altri casi d'uso di parlato diretto in un solo scatto. Valuta la possibilità di utilizzarelatest_short
anziché il modellocommand_and_search
.Il modello
latest_long
è destinato a qualsiasi tipo di contenuti nel formato lungo, come contenuti multimediali o conversazioni e discorsi spontanei. Valuta la possibilità di utilizzarelatest_long
al posto divideo
, soprattutto sevideo
non è disponibile nella lingua di destinazione. Puoi anche utilizzarelatest_long
al posto del modellodefault
.
Tecnologia del modello
L'obiettivo degli ultimi modelli è offrire le ultime novità della tecnologia vocale direttamente agli utenti di Google Cloud. I nostri modelli più recenti attuali si basano sulla tecnologia del modello vocale Conforme di Google, ma questo potrebbe cambiare in futuro. Per scoprire di più, consulta l'elenco delle pubblicazioni di Google Research.
Prezzi
I modelli latest_long
e latest_short
vengono fatturati come "Standard" e sono soggetti agli stessi utilizzi e costi dei modelli command_and_search
o default
. Per ulteriori informazioni, vedi Prezzi.
Aggiornamenti del modello
I modelli più recenti si basano su una tecnologia di machine learning in rapida evoluzione. Per questo motivo, potremmo eseguire aggiornamenti o ricariche dei modelli più di frequente rispetto agli altri modelli. Questi aggiornamenti possono aggiungere funzionalità aggiuntive o apportare lievi modifiche alla precisione o alla latenza.
Lingue
I modelli più recenti sono disponibili in più di 20 lingue e più di 50 varianti. Continuiamo ad aggiungere lingue, quindi consulta la sezione Lingue per l'elenco più aggiornato.
Supporto e limitazioni delle funzionalità
Il supporto delle funzionalità varia in base alla lingua. Per un elenco completo delle funzionalità supportate, consulta la sezione Lingue.
I modelli più recenti non supportano al momento la seguente funzionalità:
- Punteggi di affidabilità: l'API restituisce un valore, ma non è effettivamente un punteggio di affidabilità.
Modello di contratto sul livello del servizio
I modelli più recenti sono considerati parte dell'API Speech-to-Text disponibile a livello generale. Di conseguenza, le funzionalità supportate sono disponibili nell'API v1 e idonee per lo stesso accordo sul livello del servizio e le altre protezioni offerte ai prodotti e alle funzionalità disponibili a livello generale.