In questa pagina viene descritto come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.
Modelli di trascrizione
Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei numerosi modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi; in questo caso, molte registrazioni audio di persone che parlano.
Speech-to-Text dispone di modelli specializzati che sono stati addestrati da audio provenienti da origini specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili ai dati per cui sono stati addestrati.
Ad esempio, Speech-to-Text ha un modello di trascrizione addestrato per riconoscere il discorso registrato per telefono. Quando Speech-to-Text utilizza il modello telephony
per trascrivere l'audio del telefono, produce risultati di trascrizione più accurati rispetto a se avesse trascritto l'audio del telefono utilizzando i modelli latest_long
o medical_dictation
, ad esempio.
La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con Speech-to-Text.
Nome modello | Descrizione |
---|---|
long |
Utilizza questo modello per qualsiasi tipo di contenuto di durata estesa, come i contenuti multimediali o il discorso spontaneo e le conversazioni. |
short |
Utilizza questo modello per frasi brevi di pochi secondi. È utile per tentare di acquisire comandi o altri casi d'uso vocali diretti. Quando utilizzi questo modello, il servizio interrompe la trascrizione dell'audio dopo che il primo espressione viene rilevato e completato. Con questo modello, il riconoscimento separato per canale non è supportato. Anche se l'audio multicanale verrà accettato dal servizio, verrà elaborato e riconosciuto solo il primo canale. |
telephony |
Ideale per l'audio proveniente da una telefonata (in genere registrato con una frequenza di campionamento di 8 kHz). |
medical_dictation |
Utilizza questo modello per trascrivere le note dettate da un medico, ad esempio un medico che detta note sui risultati degli esami del sangue di un paziente. |
medical_conversation |
Utilizza questo modello per le conversazioni tra un medico (ad esempio, un medico o un infermiere) e un paziente. Utilizza questo modello quando parlano sia un fornitore sia un paziente. Le parole pronunciate da ogni persona vengono rilevate automaticamente ed etichettate nella trascrizione restituita. |
chirp |
Modello di voce grande unificato. Utilizza questo modello per qualsiasi caso d'uso che non richiede lo streaming. |
Seleziona un modello per la trascrizione audio
Il modello è specificato dal Recognizer utilizzato per la richiesta di riconoscimento. Chiama speech/projects.locations.recognizers/create
per creare un riconoscimento e utilizza il campo model
per specificare il modello. I modelli validi per ogni lingua sono disponibili nella tabella Lingue supportate.