Selezione di un modello di trascrizione

In questa pagina viene descritto come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.

Modelli di trascrizione

Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei numerosi modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi; in questo caso, molte registrazioni audio di persone che parlano.

Speech-to-Text dispone di modelli specializzati che sono stati addestrati da audio provenienti da origini specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili ai dati per cui sono stati addestrati.

Ad esempio, Speech-to-Text ha un modello di trascrizione addestrato per riconoscere il discorso registrato per telefono. Quando Speech-to-Text utilizza il modello telephony per trascrivere l'audio del telefono, produce risultati di trascrizione più accurati rispetto a se avesse trascritto l'audio del telefono utilizzando i modelli latest_long o medical_dictation, ad esempio.

La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con Speech-to-Text.

Nome modello Descrizione
long Utilizza questo modello per qualsiasi tipo di contenuto di durata estesa, come i contenuti multimediali o il discorso spontaneo e le conversazioni.
short Utilizza questo modello per frasi brevi di pochi secondi. È utile per tentare di acquisire comandi o altri casi d'uso vocali diretti. Quando utilizzi questo modello, il servizio interrompe la trascrizione dell'audio dopo che il primo espressione viene rilevato e completato. Con questo modello, il riconoscimento separato per canale non è supportato. Anche se l'audio multicanale verrà accettato dal servizio, verrà elaborato e riconosciuto solo il primo canale.
telephony Ideale per l'audio proveniente da una telefonata (in genere registrato con una frequenza di campionamento di 8 kHz).
medical_dictation Utilizza questo modello per trascrivere le note dettate da un medico, ad esempio un medico che detta note sui risultati degli esami del sangue di un paziente.
medical_conversation Utilizza questo modello per le conversazioni tra un medico (ad esempio, un medico o un infermiere) e un paziente. Utilizza questo modello quando parlano sia un fornitore sia un paziente. Le parole pronunciate da ogni persona vengono rilevate automaticamente ed etichettate nella trascrizione restituita.
chirp Modello di voce grande unificato. Utilizza questo modello per qualsiasi caso d'uso che non richiede lo streaming.

Seleziona un modello per la trascrizione audio

Il modello è specificato dal Recognizer utilizzato per la richiesta di riconoscimento. Chiama speech/projects.locations.recognizers/create per creare un riconoscimento e utilizza il campo model per specificare il modello. I modelli validi per ogni lingua sono disponibili nella tabella Lingue supportate.