Modelli più recenti

I tag di modello "più recenti" nell'API Speech-to-Text offrono l'accesso a due nuovi tag modello che possono essere utilizzati quando specifichi il campo del modello. Questi modelli sono progettati per consentirti di accedere alle ultime tecnologie di ricerca vocale e al machine learning di Google e possono fornire una maggiore precisione per il riconoscimento vocale rispetto ad altri modelli disponibili. Tuttavia, alcune funzionalità supportate da altri modelli disponibili non sono ancora supportate dai modelli "più recenti".

Gli ultimi modelli si basano sulla tecnologia Conformer Speech Model di Google. Per scoprire di più, consulta le pubblicazioni di Google Research.

L'utilizzo dei modelli più recenti richiede una conoscenza generale dell'utilizzo dell'API o dell'interfaccia utente di Speech-to-Text. Se è la prima volta che lo utilizzi, consulta i nostri guide rapide.

Identificatori dei modelli

I modelli più recenti sono disponibili in due versioni diverse:

  • Il modello latest_short è per espressioni brevi di pochi secondi. È utile per tentare di acquisire comandi o altri casi d'uso di sintesi vocale diretti. Quando usi questo modello, il servizio interrompe la trascrizione dell'audio dopo il rilevamento e il completamento della prima frase.

    Il riconoscimento separato per canale non è supportato da questo modello. Anche se l'audio multicanale è accettato, solo il primo canale verrà elaborato e trascritto.

  • Il modello latest_long è per qualsiasi tipo di contenuto di lunga durata, come contenuti multimediali o conversazioni spontanee e multimediali.

Tecnologia dei modelli

L'obiettivo dei modelli più recenti è quello di portare le ultime novità in termini di tecnologia vocale direttamente agli utenti di Google Cloud. Al momento, i nostri modelli più recenti si basano sulla tecnologia Conformer Speech Model di Google, ma questo potrebbe cambiare in futuro. Per saperne di più, consulta l'elenco delle pubblicazioni di Google Research.

Prezzi

I modelli latest_long e latest_short vengono fatturati come "Standard". Per ulteriori informazioni, consulta la sezione Prezzi.

Aggiornamenti del modello

I modelli più recenti si basano sulla tecnologia di machine learning in rapida evoluzione. Per questo motivo potremmo eseguire aggiornamenti o aggiornamenti di modelli più spesso che sugli altri nostri modelli. Questi aggiornamenti possono aggiungere funzionalità aggiuntive o apportare lievi modifiche alla precisione o alla latenza.

Linguaggi

Gli ultimi modelli sono disponibili in più di 20 lingue e in più di 50 varianti. Poiché aggiungiamo sempre lingue, consulta Lingue per l'elenco più aggiornato.

Assistenza e limitazioni delle funzionalità

Il supporto delle funzionalità varia in base alla lingua. Consulta Lingue per un elenco completo delle funzionalità supportate.

I modelli più recenti non supportano attualmente le seguenti funzionalità:

  • Punteggio di affidabilità: l'API restituirà un valore, ma non è un punteggio di affidabilità.

  • Bias: solo il modello en-us latest_short supporta la differenziazione.

  • Diarizzazione: nessuno dei due modelli più recenti supporta la diarizzazione.