Modelli di conformità (lungi e brevi)

I tag del modello "più recente" nell'API Speech-to-Text danno accesso a due nuovi tag del modello che possono essere utilizzati quando specifichi il campo del modello. Questi modelli sono progettati per consentirti di accedere alle più recenti ricerche su tecnologia vocale e machine learning di Google e possono offrire una maggiore precisione per il riconoscimento vocale rispetto agli altri modelli disponibili. Tuttavia, alcune funzionalità supportate da altri modelli disponibili non sono ancora supportate dai modelli "più recenti".

I modelli più recenti si basano sulla tecnologia Conformer Speech Model di Google. Per scoprire di più, consulta la pagina Pubblicazioni di Google Research.

L'utilizzo dei modelli più recenti richiede una conoscenza generale dell'utilizzo dell'API o della UI Speech-to-Text. Consulta le nostre Guide rapide se è la prima volta che lo utilizzi.

Identificatori dei modelli

Gli ultimi modelli sono disponibili in due versioni diverse:

Il modello latest_short è per brevi espressioni della durata di pochi secondi. È utile per acquisire comandi o altri casi d'uso vocali diretti. Quando utilizzi questo modello, il servizio interromperà la trascrizione dell'audio dopo il rilevamento e il completamento della prima frase.

Questo modello non supporta il riconoscimento separato per canale. Sebbene l'audio multicanale sia accettato, verrà elaborato e trascritto solo il primo canale.
Il modello latest_long è adatto a qualsiasi tipo di contenuti nel formato lungo, come contenuti multimediali o conversazioni spontanee e conversazioni.

Tecnologia del modello

L'obiettivo dei modelli più recenti è offrire la più recente tecnologia di riconoscimento vocale direttamente agli utenti di Google Cloud. I nostri attuali modelli più recenti si basano sulla tecnologia Conformer Speech Model di Google, ma la situazione potrebbe cambiare in futuro. Per saperne di più, consulta l'elenco delle Pubblicazioni di Google Research.

Prezzi

I modelli latest_long e latest_short vengono fatturati come "Standard". Per ulteriori informazioni, consulta la sezione Prezzi.

Aggiornamenti del modello

I modelli più recenti si basano sulla tecnologia di machine learning in rapida evoluzione. Per questo motivo, potremmo eseguire aggiornamenti o aggiornamenti dei modelli più spesso rispetto agli altri nostri modelli. Questi aggiornamenti possono aggiungere ulteriori funzionalità o apportare lievi modifiche all'accuratezza o alla latenza.

Linguaggi

I modelli più recenti sono disponibili in più di 20 lingue e in più di 50 varianti. Poiché aggiungiamo sempre le lingue, consulta la sezione Lingue per un elenco più aggiornato.

Supporto e limitazioni delle funzionalità

Il supporto delle funzionalità varia in base alla lingua. Vedi Lingue per un elenco completo delle funzionalità supportate.

Al momento, gli ultimi modelli non supportano le seguenti funzionalità:

Punteggi di affidabilità: l'API restituirà un valore, ma non è effettivamente un punteggio di affidabilità.
Diarizzazione: nessuno dei due modelli più recenti supporta la diarizzazione.