Questa pagina è stata tradotta dall'API Cloud Translation.

Selezione di un modello di trascrizione

Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.

Modelli di trascrizione

Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei numerosi modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso moltissime registrazioni audio di persone che parlano.

Speech-to-Text dispone di modelli specializzati che vengono addestrati con l'audio per sorgenti specifiche. Questi modelli forniscono risultati migliori quando vengono applicati a tipi di dati audio simili a quelli su cui sono stati addestrati.

Ad esempio, Speech-to-Text ha un modello di trascrizione addestrato a riconoscere il parlato registrato al telefono. Quando Speech-to-Text utilizza il modello telephony_short o telephony per trascrivere l'audio dello smartphone, produce risultati di trascrizione più accurati rispetto a quelli ottenuti con i modelli short o long.

La tabella seguente mostra i modelli di trascrizione disponibili per l'uso con Speech-to-Text.

Nome modello	Descrizione
`long`	Utilizza questo modello per qualsiasi tipo di contenuti nel formato lungo, ad esempio contenuti multimediali o conversazioni e discorsi spontanei. Ti consigliamo di utilizzare questo modello anziché il modello "video" o "predefinito", soprattutto se non sono disponibili nella lingua di destinazione.
`short`	Utilizza questo modello per frasi brevi della durata di alcuni secondi. È utile per provare a acquisire comandi o altri casi d'uso di parlato diretto breve. Valuta la possibilità di utilizzare questo modello anziché il modello di ricerca e comandi.
`telephony`	Utilizza questo modello per l'audio proveniente da una chiamata telefonica audio, in genere registrata con una frequenza di campionamento pari a 8 kHz. Ideale per l'assistenza clienti, le teleconferenze e le applicazioni kiosk automatiche.
`telephony_short`	Versione dedicata del modello "telephony" per frasi brevi o anche di una sola parola per audio proveniente da una telefonata, in genere registrato con una frequenza di campionamento pari a 8 kHz. Utile per frasi di pochi secondi nell'assistenza clienti, nelle teleconferenze e nelle applicazioni kiosk automatiche.
`medical_dictation`	Utilizza questo modello per trascrivere le note dettate da un professionista sanitario, ad esempio un medico che detta le note sui risultati degli esami del sangue di un paziente.
`medical_conversation`	Utilizza questo modello per le conversazioni tra un fornitore di servizi medici, ad esempio un medico o un'infermiera, e un paziente. Utilizza il modello "medical_conversation" quando parlano sia un fornitore che un paziente. Le parole pronunciate da ogni persona che parla vengono rilevate ed etichettate automaticamente.
`chirp_2`	Utilizza la prossima generazione del nostro Universal Large Speech Model (USM) basato sulla nostra tecnologia di modelli linguistici di grandi dimensioni per lo streaming e il batch, nonché per le trascrizioni e le traduzioni in diversi contenuti linguistici e funzionalità multilingue.
`chirp_telephony`	Modello vocale universale di grandi dimensioni (USM) ottimizzato per l'audio proveniente da una telefonata (in genere registrato con una frequenza di campionamento pari a 8 kHz).
`chirp`	Utilizza il nostro Universal Speech Model (USM), per trascrizioni non in streaming all'avanguardia in diversi contenuti linguistici e funzionalità multilingue.

Selezionare un modello per la trascrizione audio

Il modello è specificato dal riconoscitore utilizzato per la richiesta di riconoscimento. Chiama speech/projects.locations.recognizers/create per creare un riconoscitore e utilizza il campo model per specificare il modello. I modelli validi per ogni lingua sono disponibili nella tabella Lingue supportate.