Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.
Modelli di trascrizione
Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei tanti modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso molte registrazioni audio di persone che parlano.
Speech-to-Text dispone di modelli specializzati addestrati a partire dall'audio per sorgenti specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili a quelli su cui sono stati addestrati.
La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con l'API Speech-to-Text V2.
Nome modello | Descrizione |
---|---|
chirp_3 |
Utilizza l'ultima generazione di modelli generativi multilingue specifici per il riconoscimento vocale automatico (ASR) di Google, progettati per soddisfare le esigenze degli utenti in base al feedback e all'esperienza. Chirp 3 offre maggiore precisione e velocità rispetto ai modelli Chirp precedenti e fornisce la diarizzazione e il rilevamento automatico della lingua. |
chirp_2 |
Utilizza la nuova generazione del nostro modello vocale universale di grandi dimensioni (USM) basato sulla nostra tecnologia di modello linguistico di grandi dimensioni (LLM) per lo streaming e il batch, nonché per le trascrizioni e le traduzioni in contenuti linguistici diversi e funzionalità multilingue. |
telephony |
Utilizza questo modello per l'audio proveniente da una chiamata audio, in genere registrata con una frequenza di campionamento pari a 8 kHz. Ideale per il servizio clienti, le teleconferenze e le applicazioni kiosk automatiche. |
I seguenti modelli si basano su architetture precedenti, non vengono gestiti attivamente e vengono mantenuti principalmente per la compatibilità legacy e con le versioni precedenti.
chirp |
Utilizza il nostro modello linguistico di grandi dimensioni (LLM) universale per trascrizioni non in streaming all'avanguardia in contenuti linguistici diversi e funzionalità multilingue. |
chirp_telephony |
Modello vocale universale di grandi dimensioni (USM) ottimizzato per l'audio proveniente da una telefonata (normalmente registrata con una frequenza di campionamento pari a 8 kHz). |
long |
Utilizza questo modello per qualsiasi tipo di contenuto nel formato lungo, ad esempio contenuti multimediali o conversazioni e discorsi spontanei. Ti consigliamo di utilizzare questo modello al posto di video o default , soprattutto se non sono disponibili nella lingua di destinazione. |
short |
Utilizza questo modello per espressioni brevi che durano pochi secondi. È utile per provare ad acquisire comandi o altri casi d'uso di espressioni dirette brevi. Valuta la possibilità di utilizzare questo modello anziché il modello di comando e ricerca. |
telephony_short |
Versione dedicata del modello telephony per espressioni brevi o anche di una sola parola per l'audio proveniente da una telefonata, normalmente registrata con una frequenza di campionamento pari a 8 kHz. Utile per le espressioni di pochi secondi nell'assistenza clienti, nelle audioconferenze e nelle applicazioni kiosk automatizzate. |
medical_conversation |
Utilizza questo modello per le conversazioni tra un fornitore di servizi sanitari, ad esempio un medico o un infermiere, e un paziente. Utilizza il modello medical_conversation quando parlano sia un fornitore che un paziente. Le parole pronunciate da ogni persona che parla vengono rilevate ed etichettate automaticamente. |
medical_dictation |
Utilizza questo modello per trascrivere le note dettate da un medico, ad esempio le note di un medico sui risultati dell'esame del sangue di un paziente. |
Seleziona un modello per la trascrizione audio
Il modello è specificato dal riconoscimento
utilizzato per la richiesta di riconoscimento. Chiama speech/projects.locations.recognizers/create
per creare un riconoscitore e utilizza il campo model
per specificare il modello. I modelli
validi per ogni lingua sono disponibili nella tabella Lingue supportate.