Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione di audio in Speech-to-Text.
Modelli di trascrizione
Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno di molti modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi: in questo caso, molte registrazioni audio di persone che parlano.
Speech-to-Text ha modelli specializzati che sono addestrati da audio da origini specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili ai dati per cui sono stati addestrati.
Ad esempio, Speech-to-Text ha un modello di trascrizione addestrato a riconoscere la voce registrata al telefono. Quando Speech-to-Text utilizza il modello telephony
per trascrivere l'audio del telefono, produce risultati di trascrizione più accurati rispetto a se avesse trascritto l'audio del telefono utilizzando i modelli latest_long
o medical_dictation
, ad esempio.
La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con Speech-to-Text.
Nome modello | Descrizione |
---|---|
latest_long |
Utilizza questo modello per qualsiasi tipo di contenuto di lunga durata, come contenuti multimediali o conversazioni spontanee e spontanee. |
latest_short |
Utilizza questo modello per brevi frasi della durata di alcuni secondi. È utile per tentare di acquisire comandi o altri casi d'uso di sintesi vocale diretti. Quando usi questo modello, il servizio interrompe la trascrizione dell'audio dopo il rilevamento e il completamento della prima frase. Con questo modello non è supportato il riconoscimento separato per canale. Sebbene l'audio multicanale sia accettato dal servizio, solo il primo canale verrà elaborato e riconosciuto. |
telephony |
Ideale per gli audio che hanno avuto origine da una telefonata (solitamente registrata con una frequenza di campionamento di 8 kHz). |
medical_dictation |
Utilizza questo modello per trascrivere note dettate da un medico, ad esempio un medico che detta note sui risultati degli esami del sangue di un paziente. |
medical_conversation |
Utilizza questo modello per le conversazioni tra un medico (ad esempio, un medico o un infermiere) e un paziente. Utilizza questo modello quando sia un medico che un paziente stanno parlando. Le parole pronunciate da ogni relatore vengono rilevate automaticamente ed etichettate nella trascrizione restituita. |
Seleziona un modello per la trascrizione audio
Il modello è specificato dal riconoscitore utilizzato per la richiesta di riconoscimento. Chiama il numero speech/projects.locations.recognizers/create
per creare un riconoscimento e utilizza il campo model
per specificare il modello. I modelli validi sono: latest_long
, latest_short
, telephony
,
medical_dictation
o medical_conversation
.