I tag del modello "più recente" nell'API Speech-to-Text danno accesso a due nuovi tag del modello che possono essere utilizzati quando specifichi il campo del modello. Questi modelli sono progettati per consentirti di accedere alle più recenti ricerche su tecnologia vocale e machine learning di Google e possono offrire una maggiore precisione per il riconoscimento vocale rispetto agli altri modelli disponibili. Tuttavia, alcune funzionalità supportate da altri modelli disponibili non sono ancora supportate dai modelli "più recenti".
I modelli più recenti si basano sulla tecnologia Conformer Speech Model di Google. Per scoprire di più, consulta la pagina Pubblicazioni di Google Research.
L'utilizzo dei modelli più recenti richiede una conoscenza generale dell'utilizzo dell'API o della UI Speech-to-Text. Consulta le nostre Guide rapide se è la prima volta che lo utilizzi.
Identificatori dei modelli
Gli ultimi modelli sono disponibili in due versioni diverse:
Il modello
latest_short
è per brevi espressioni della durata di pochi secondi. È utile per acquisire comandi o altri casi d'uso vocali diretti. Valuta l'utilizzo dilatest_short
anziché del modellocommand_and_search
.Il modello
latest_long
è adatto a qualsiasi tipo di contenuti nel formato lungo, come contenuti multimediali o conversazioni spontanee e conversazioni. Potresti usarelatest_long
al posto divideo
, soprattutto sevideo
non è disponibile nella tua lingua di destinazione. Puoi anche utilizzarelatest_long
al posto del modellodefault
.
Tecnologia del modello
L'obiettivo dei modelli più recenti è offrire la più recente tecnologia di riconoscimento vocale direttamente agli utenti di Google Cloud. I nostri attuali modelli più recenti si basano sulla tecnologia Conformer Speech Model di Google, ma la situazione potrebbe cambiare in futuro. Per saperne di più, consulta l'elenco delle Pubblicazioni di Google Research.
Prezzi
I modelli latest_long
e latest_short
vengono fatturati come "Standard" e
soggetti allo stesso utilizzo e agli stessi costi dei modelli command_and_search
o default
. Per ulteriori informazioni, consulta la sezione Prezzi.
Aggiornamenti del modello
I modelli più recenti si basano sulla tecnologia di machine learning in rapida evoluzione. Per questo motivo, potremmo eseguire aggiornamenti o aggiornamenti dei modelli più spesso rispetto agli altri nostri modelli. Questi aggiornamenti possono aggiungere ulteriori funzionalità o apportare lievi modifiche all'accuratezza o alla latenza.
Linguaggi
I modelli più recenti sono disponibili in più di 20 lingue e in più di 50 varianti. Poiché aggiungiamo sempre le lingue, consulta la sezione Lingue per un elenco più aggiornato.
Supporto e limitazioni delle funzionalità
Il supporto delle funzionalità varia in base alla lingua. Vedi Lingue per un elenco completo delle funzionalità supportate.
Al momento, gli ultimi modelli non supportano la seguente funzionalità:
- Punteggi di affidabilità: l'API restituirà un valore, ma non è effettivamente un punteggio di affidabilità.
Modello di accordo sul livello del servizio
I modelli più recenti sono considerati una parte di disponibilità generale dell'API Speech-to-Text. Pertanto, le funzionalità supportate sono disponibili nell'API v1 e sono idonee per lo stesso accordo sul livello del servizio e altre protezioni offerte per prodotti e funzionalità in disponibilità generale.