Selezione di un modello di trascrizione

Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.

Modelli di trascrizione

Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei tanti modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso molte, molte registrazioni audio di persone che parlano.

Speech-to-Text dispone di modelli specializzati addestrati da audio provenienti da origini specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili ai dati su cui sono stati addestrati.

Ad esempio, Speech-to-Text dispone di un modello di trascrizione addestrato a riconoscere la voce registrata al telefono. Quando Speech-to-Text utilizza il modello telephony per trascrivere l'audio del telefono, produce risultati di trascrizione più accurati rispetto a quando avesse trascritto l'audio del telefono con i modelli latest_long o medical_dictation, ad esempio.

La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con Speech-to-Text.

Nome modello Descrizione
long Utilizza questo modello per qualsiasi tipo di contenuti nel formato lungo, come contenuti multimediali o conversazioni e conversazioni spontanee. Prendi in considerazione l'utilizzo di questo modello al posto del modello "video" o "default", soprattutto se non sono disponibili nella tua lingua di destinazione.
short Utilizza questo modello per gli enunciati brevi di pochi secondi. È utile per provare ad acquisire comandi o altri casi d'uso di comandi vocali diretti brevi. Prendi in considerazione l'utilizzo di questo modello invece del modello di comando e ricerca.
telephony Utilizza questo modello per l'audio proveniente da una telefonata, generalmente registrata con una frequenza di campionamento di 8 kHz. Ideale per applicazioni di assistenza clienti, teleconferenze e kiosk automatizzate.
medical_dictation Utilizza questo modello per trascrivere le note dettate da un medico, ad esempio un medico che detta note sui risultati degli esami del sangue di un paziente.
medical_conversation Utilizza questo modello per le conversazioni tra un medico, ad esempio un medico o un infermiere, e un paziente. Utilizza il modello "medical_conversation" quando sia un medico che un paziente parlano. Le parole pronunciate da ciascun altoparlante vengono rilevate ed etichettate automaticamente.
chirp Usa il nostro modello USM(Universal Large Speech Model) per trascrizioni all'avanguardia non in streaming in diversi contenuti linguistici e capacità multilingue.
chirp_telephony USM(Universal Large Speech Model) perfezionato per l'audio proveniente da una telefonata (solitamente registrata con una frequenza di campionamento di 8 kHz).
chirp_2 Usa la nuova generazione del nostro USM (Universal Large Speech Model) basato su Gemini per trascrizioni e traduzioni non in streaming in diversi contenuti linguistici e capacità multilingue.

Seleziona un modello per la trascrizione audio

Il modello viene specificato dal Riconoscimento utilizzato per la richiesta di riconoscimento. Chiama speech/projects.locations.recognizers/create per creare un riconoscimento e utilizza il campo model per specificare il modello. Puoi trovare modelli validi per ogni lingua nella tabella Lingue supportate.