Selezione di un modello di trascrizione

Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.

Modelli di trascrizione

Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei numerosi modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso moltissime registrazioni audio di persone che parlano.

Speech-to-Text dispone di modelli specializzati che vengono addestrati a partire dall'audio per sorgenti specifiche. Questi modelli forniscono risultati migliori quando vengono applicati a tipi di dati audio simili a quelli su cui sono stati addestrati.

Ad esempio, Speech-to-Text ha un modello di trascrizione addestrato a riconoscere il parlato registrato al telefono. Quando Speech-to-Text utilizza il modello telephony per trascrivere l'audio telefonico, produce risultati di trascrizione più accurati rispetto a quelli ottenuti utilizzando i modelli short o long.

La tabella seguente mostra i modelli di trascrizione disponibili per l'uso con Speech-to-Text.

Nome modello Descrizione
long Utilizza questo modello per qualsiasi tipo di contenuti nel formato lungo, ad esempio contenuti multimediali o conversazioni e discorsi spontanei. Ti consigliamo di utilizzare questo modello anziché il modello "video" o "predefinito", soprattutto se non sono disponibili nella lingua di destinazione.
short Utilizza questo modello per frasi brevi della durata di alcuni secondi. È utile per provare a acquisire comandi o altri casi d'uso di parlato diretto breve. Valuta la possibilità di utilizzare questo modello anziché il modello di ricerca e comandi.
telephony Utilizza questo modello per l'audio proveniente da una telefonata, in genere registrata con una frequenza di campionamento pari a 8 kHz. Ideale per l'assistenza clienti, le teleconferenze e le applicazioni kiosk automatiche.
medical_dictation Utilizza questo modello per trascrivere le note dettate da un professionista sanitario, ad esempio un medico che detta le note relative ai risultati degli esami del sangue di un paziente.
medical_conversation Utilizza questo modello per le conversazioni tra un fornitore di servizi medici, ad esempio un medico o un'infermiera, e un paziente. Utilizza il modello "medical_conversation" quando parlano sia un fornitore che un paziente. Le parole pronunciate da ogni persona che parla vengono rilevate ed etichettate automaticamente.
chirp_2 Utilizza la prossima generazione del nostro Universal Large Speech Model (USM) basato sulla nostra tecnologia di modelli linguistici di grandi dimensioni per lo streaming e i batch, nonché per le trascrizioni e le traduzioni in diversi contenuti linguistici e funzionalità multilingue.
chirp_telephony Modello vocale universale di grandi dimensioni(USM) ottimizzato per l'audio proveniente da una telefonata (in genere registrato con una frequenza di campionamento pari a 8 kHz).
chirp Utilizza il nostro Universal Speech Model(USM) per trascrizioni non in streaming all'avanguardia in diversi contenuti linguistici e funzionalità multilingue.

Selezionare un modello per la trascrizione audio

Il modello è specificato dal riconoscitore utilizzato per la richiesta di riconoscimento. Chiama speech/projects.locations.recognizers/create per creare un riconoscitore e utilizza il campo model per specificare il modello. I modelli validi per ogni lingua sono disponibili nella tabella Lingue supportate.