Selezione di un modello di trascrizione

Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.

Modelli di trascrizione

Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei tanti modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso molte registrazioni audio di persone che parlano.

Speech-to-Text dispone di modelli specializzati addestrati a partire dall'audio per sorgenti specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili a quelli su cui sono stati addestrati.

La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con l'API Speech-to-Text V2.

Nome modello Descrizione
chirp_3 Utilizza l'ultima generazione di modelli generativi multilingue specifici per il riconoscimento vocale automatico (ASR) di Google, progettati per soddisfare le esigenze degli utenti in base al feedback e all'esperienza. Chirp 3 offre maggiore precisione e velocità rispetto ai modelli Chirp precedenti e fornisce la diarizzazione e il rilevamento automatico della lingua.
chirp_2 Utilizza la nuova generazione del nostro modello vocale universale di grandi dimensioni (USM) basato sulla nostra tecnologia di modello linguistico di grandi dimensioni (LLM) per lo streaming e il batch, nonché per le trascrizioni e le traduzioni in contenuti linguistici diversi e funzionalità multilingue.
telephony Utilizza questo modello per l'audio proveniente da una chiamata audio, in genere registrata con una frequenza di campionamento pari a 8 kHz. Ideale per il servizio clienti, le teleconferenze e le applicazioni kiosk automatiche.

I seguenti modelli si basano su architetture precedenti, non vengono gestiti attivamente e vengono mantenuti principalmente per la compatibilità legacy e con le versioni precedenti.

chirp Utilizza il nostro modello linguistico di grandi dimensioni (LLM) universale per trascrizioni non in streaming all'avanguardia in contenuti linguistici diversi e funzionalità multilingue.
chirp_telephony Modello vocale universale di grandi dimensioni (USM) ottimizzato per l'audio proveniente da una telefonata (normalmente registrata con una frequenza di campionamento pari a 8 kHz).
long Utilizza questo modello per qualsiasi tipo di contenuto nel formato lungo, ad esempio contenuti multimediali o conversazioni e discorsi spontanei. Ti consigliamo di utilizzare questo modello al posto di video o default, soprattutto se non sono disponibili nella lingua di destinazione.
short Utilizza questo modello per espressioni brevi che durano pochi secondi. È utile per provare ad acquisire comandi o altri casi d'uso di espressioni dirette brevi. Valuta la possibilità di utilizzare questo modello anziché il modello di comando e ricerca.
telephony_short Versione dedicata del modello telephony per espressioni brevi o anche di una sola parola per l'audio proveniente da una telefonata, normalmente registrata con una frequenza di campionamento pari a 8 kHz. Utile per le espressioni di pochi secondi nell'assistenza clienti, nelle audioconferenze e nelle applicazioni kiosk automatizzate.
medical_conversation Utilizza questo modello per le conversazioni tra un fornitore di servizi sanitari, ad esempio un medico o un infermiere, e un paziente. Utilizza il modello medical_conversation quando parlano sia un fornitore che un paziente. Le parole pronunciate da ogni persona che parla vengono rilevate ed etichettate automaticamente.
medical_dictation Utilizza questo modello per trascrivere le note dettate da un medico, ad esempio le note di un medico sui risultati dell'esame del sangue di un paziente.

Seleziona un modello per la trascrizione audio

Il modello è specificato dal riconoscimento utilizzato per la richiesta di riconoscimento. Chiama speech/projects.locations.recognizers/create per creare un riconoscitore e utilizza il campo model per specificare il modello. I modelli validi per ogni lingua sono disponibili nella tabella Lingue supportate.