Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.
Modelli di trascrizione
Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei tanti modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso molte, molte registrazioni audio di persone che parlano.
Speech-to-Text dispone di modelli specializzati addestrati da audio provenienti da origini specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili ai dati su cui sono stati addestrati.
Ad esempio, Speech-to-Text dispone di un modello di trascrizione addestrato
a riconoscere la voce registrata al telefono. Quando Speech-to-Text
utilizza il modello telephony
per trascrivere l'audio del telefono, produce risultati di trascrizione
più accurati rispetto a quando avesse trascritto l'audio del telefono con i
modelli latest_long
o medical_dictation
, ad esempio.
La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con Speech-to-Text.
Nome modello | Descrizione |
---|---|
long |
Utilizza questo modello per qualsiasi tipo di contenuti nel formato lungo, come contenuti multimediali o conversazioni e conversazioni spontanee. Prendi in considerazione l'utilizzo di questo modello al posto del modello "video" o "default", soprattutto se non sono disponibili nella tua lingua di destinazione. |
short |
Utilizza questo modello per gli enunciati brevi di pochi secondi. È utile per provare ad acquisire comandi o altri casi d'uso di comandi vocali diretti brevi. Prendi in considerazione l'utilizzo di questo modello invece del modello di comando e ricerca. |
telephony |
Utilizza questo modello per l'audio proveniente da una telefonata, generalmente registrata con una frequenza di campionamento di 8 kHz. Ideale per applicazioni di assistenza clienti, teleconferenze e kiosk automatizzate. |
medical_dictation |
Utilizza questo modello per trascrivere le note dettate da un medico, ad esempio un medico che detta note sui risultati degli esami del sangue di un paziente. |
medical_conversation |
Utilizza questo modello per le conversazioni tra un medico, ad esempio un medico o un infermiere, e un paziente. Utilizza il modello "medical_conversation" quando sia un medico che un paziente parlano. Le parole pronunciate da ciascun altoparlante vengono rilevate ed etichettate automaticamente. |
chirp |
Usa il nostro modello USM(Universal Large Speech Model) per trascrizioni all'avanguardia non in streaming in diversi contenuti linguistici e capacità multilingue. |
chirp_telephony |
USM(Universal Large Speech Model) perfezionato per l'audio proveniente da una telefonata (solitamente registrata con una frequenza di campionamento di 8 kHz). |
chirp_2 |
Usa la nuova generazione del nostro USM (Universal Large Speech Model) basato su Gemini per trascrizioni e traduzioni non in streaming in diversi contenuti linguistici e capacità multilingue. |
Seleziona un modello per la trascrizione audio
Il modello viene specificato dal Riconoscimento
utilizzato per la richiesta di riconoscimento. Chiama speech/projects.locations.recognizers/create
per creare un riconoscimento e utilizza il campo model
per specificare il modello. Puoi trovare modelli
validi per ogni lingua nella tabella Lingue supportate.