Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.
Modelli di trascrizione
Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei numerosi modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso moltissime registrazioni audio di persone che parlano.
Speech-to-Text dispone di modelli specializzati che vengono addestrati con l'audio per sorgenti specifiche. Questi modelli forniscono risultati migliori quando vengono applicati a tipi di dati audio simili a quelli su cui sono stati addestrati.
Ad esempio, Speech-to-Text ha un modello di trascrizione addestrato
a riconoscere il parlato registrato al telefono. Quando Speech-to-Text
utilizza il modello telephony_short
o telephony
per trascrivere l'audio dello smartphone, produce risultati di trascrizione più accurati rispetto a quelli ottenuti con i modelli short
o long
.
La tabella seguente mostra i modelli di trascrizione disponibili per l'uso con Speech-to-Text.
Nome modello | Descrizione |
---|---|
long |
Utilizza questo modello per qualsiasi tipo di contenuti nel formato lungo, ad esempio contenuti multimediali o conversazioni e discorsi spontanei. Ti consigliamo di utilizzare questo modello anziché il modello "video" o "predefinito", soprattutto se non sono disponibili nella lingua di destinazione. |
short |
Utilizza questo modello per frasi brevi della durata di alcuni secondi. È utile per provare a acquisire comandi o altri casi d'uso di parlato diretto breve. Valuta la possibilità di utilizzare questo modello anziché il modello di ricerca e comandi. |
telephony |
Utilizza questo modello per l'audio proveniente da una chiamata telefonica audio, in genere registrata con una frequenza di campionamento pari a 8 kHz. Ideale per l'assistenza clienti, le teleconferenze e le applicazioni kiosk automatiche. |
telephony_short |
Versione dedicata del modello "telephony" per frasi brevi o anche di una sola parola per audio proveniente da una telefonata, in genere registrato con una frequenza di campionamento pari a 8 kHz. Utile per frasi di pochi secondi nell'assistenza clienti, nelle teleconferenze e nelle applicazioni kiosk automatiche. |
medical_dictation |
Utilizza questo modello per trascrivere le note dettate da un professionista sanitario, ad esempio un medico che detta le note sui risultati degli esami del sangue di un paziente. |
medical_conversation |
Utilizza questo modello per le conversazioni tra un fornitore di servizi medici, ad esempio un medico o un'infermiera, e un paziente. Utilizza il modello "medical_conversation" quando parlano sia un fornitore che un paziente. Le parole pronunciate da ogni persona che parla vengono rilevate ed etichettate automaticamente. |
chirp_2 |
Utilizza la prossima generazione del nostro Universal Large Speech Model (USM) basato sulla nostra tecnologia di modelli linguistici di grandi dimensioni per lo streaming e il batch, nonché per le trascrizioni e le traduzioni in diversi contenuti linguistici e funzionalità multilingue. |
chirp_telephony |
Modello vocale universale di grandi dimensioni (USM) ottimizzato per l'audio proveniente da una telefonata (in genere registrato con una frequenza di campionamento pari a 8 kHz). |
chirp |
Utilizza il nostro Universal Speech Model (USM), per trascrizioni non in streaming all'avanguardia in diversi contenuti linguistici e funzionalità multilingue. |
Selezionare un modello per la trascrizione audio
Il modello è specificato dal riconoscitore utilizzato per la richiesta di riconoscimento. Chiama speech/projects.locations.recognizers/create
per creare un riconoscitore e utilizza il campo model
per specificare il modello. I modelli validi per ogni lingua sono disponibili nella tabella Lingue supportate.