Selezione di un modello di trascrizione

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione di audio in Speech-to-Text.

Modelli di trascrizione

Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno di molti modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi: in questo caso, molte registrazioni audio di persone che parlano.

Speech-to-Text ha modelli specializzati che sono addestrati da audio da origini specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili ai dati per cui sono stati addestrati.

Ad esempio, Speech-to-Text ha un modello di trascrizione addestrato a riconoscere la voce registrata al telefono. Quando Speech-to-Text utilizza il modello telephony per trascrivere l'audio del telefono, produce risultati di trascrizione più accurati rispetto a se avesse trascritto l'audio del telefono utilizzando i modelli latest_long o medical_dictation, ad esempio.

La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con Speech-to-Text.

Nome modello Descrizione
latest_long Utilizza questo modello per qualsiasi tipo di contenuto di lunga durata, come contenuti multimediali o conversazioni spontanee e spontanee.
latest_short Utilizza questo modello per brevi frasi della durata di alcuni secondi. È utile per tentare di acquisire comandi o altri casi d'uso di sintesi vocale diretti. Quando usi questo modello, il servizio interrompe la trascrizione dell'audio dopo il rilevamento e il completamento della prima frase. Con questo modello non è supportato il riconoscimento separato per canale. Sebbene l'audio multicanale sia accettato dal servizio, solo il primo canale verrà elaborato e riconosciuto.
telephony Ideale per gli audio che hanno avuto origine da una telefonata (solitamente registrata con una frequenza di campionamento di 8 kHz).
medical_dictation Utilizza questo modello per trascrivere note dettate da un medico, ad esempio un medico che detta note sui risultati degli esami del sangue di un paziente.
medical_conversation Utilizza questo modello per le conversazioni tra un medico (ad esempio, un medico o un infermiere) e un paziente. Utilizza questo modello quando sia un medico che un paziente stanno parlando. Le parole pronunciate da ogni relatore vengono rilevate automaticamente ed etichettate nella trascrizione restituita.

Seleziona un modello per la trascrizione audio

Il modello è specificato dal riconoscitore utilizzato per la richiesta di riconoscimento. Chiama il numero speech/projects.locations.recognizers/create per creare un riconoscimento e utilizza il campo model per specificare il modello. I modelli validi sono: latest_long, latest_short, telephony, medical_dictation o medical_conversation.