Introduzione ai modelli più recenti

I tag del modello "più recente" nell'API Speech-to-Text danno accesso a due nuovi tag del modello che possono essere utilizzati quando specifichi il campo del modello. Questi modelli sono progettati per consentirti di accedere alle più recenti ricerche su tecnologia vocale e machine learning di Google e possono offrire una maggiore precisione per il riconoscimento vocale rispetto agli altri modelli disponibili. Tuttavia, alcune funzionalità supportate da altri modelli disponibili non sono ancora supportate dai modelli "più recenti".

I modelli più recenti si basano sulla tecnologia Conformer Speech Model di Google. Per scoprire di più, consulta la pagina Pubblicazioni di Google Research.

L'utilizzo dei modelli più recenti richiede una conoscenza generale dell'utilizzo dell'API o della UI Speech-to-Text. Consulta le nostre Guide rapide se è la prima volta che lo utilizzi.

Identificatori dei modelli

Gli ultimi modelli sono disponibili in due versioni diverse:

  • Il modello latest_short è per brevi espressioni della durata di pochi secondi. È utile per acquisire comandi o altri casi d'uso vocali diretti. Valuta l'utilizzo di latest_short anziché del modello command_and_search.

  • Il modello latest_long è adatto a qualsiasi tipo di contenuti nel formato lungo, come contenuti multimediali o conversazioni spontanee e conversazioni. Potresti usare latest_long al posto di video, soprattutto se video non è disponibile nella tua lingua di destinazione. Puoi anche utilizzare latest_long al posto del modello default.

Tecnologia del modello

L'obiettivo dei modelli più recenti è offrire la più recente tecnologia di riconoscimento vocale direttamente agli utenti di Google Cloud. I nostri attuali modelli più recenti si basano sulla tecnologia Conformer Speech Model di Google, ma la situazione potrebbe cambiare in futuro. Per saperne di più, consulta l'elenco delle Pubblicazioni di Google Research.

Prezzi

I modelli latest_long e latest_short vengono fatturati come "Standard" e soggetti allo stesso utilizzo e agli stessi costi dei modelli command_and_search o default. Per ulteriori informazioni, consulta la sezione Prezzi.

Aggiornamenti del modello

I modelli più recenti si basano sulla tecnologia di machine learning in rapida evoluzione. Per questo motivo, potremmo eseguire aggiornamenti o aggiornamenti dei modelli più spesso rispetto agli altri nostri modelli. Questi aggiornamenti possono aggiungere ulteriori funzionalità o apportare lievi modifiche all'accuratezza o alla latenza.

Linguaggi

I modelli più recenti sono disponibili in più di 20 lingue e in più di 50 varianti. Poiché aggiungiamo sempre le lingue, consulta la sezione Lingue per un elenco più aggiornato.

Supporto e limitazioni delle funzionalità

Il supporto delle funzionalità varia in base alla lingua. Vedi Lingue per un elenco completo delle funzionalità supportate.

Al momento, gli ultimi modelli non supportano la seguente funzionalità:

  • Punteggi di affidabilità: l'API restituirà un valore, ma non è effettivamente un punteggio di affidabilità.

Modello di accordo sul livello del servizio

I modelli più recenti sono considerati una parte di disponibilità generale dell'API Speech-to-Text. Pertanto, le funzionalità supportate sono disponibili nell'API v1 e sono idonee per lo stesso accordo sul livello del servizio e altre protezioni offerte per prodotti e funzionalità in disponibilità generale.