Panoramica
L'ottimizzazione di Speech-to-Text consente di personalizzare un modello vocale esistente utilizzando i tuoi dati audio e di testo univoci per aumentare la precisione del servizio di riconoscimento vocale.
L'ottimizzazione del modello vocale può essere utilizzata per potenziare un modello vocale di base al fine di migliorare il riconoscimento della trascrizione in condizioni acustiche difficili, tra cui sirene, rumori forti, rumori di fondo eccessivi, compresi musica o altre conversazioni, e vocabolario unico, tra cui nomi di prodotti specifici del cliente o accenti e termini unici.
Accessibile sia nella console Google Cloud che nell'API, il perfezionamento del modello vocale consente di addestrare, valutare ed eseguire il deployment di un modello vocale dedicato in un ambiente integrato no-code. Per l'addestramento puoi fornire solo dati audio rappresentativi delle tue condizioni audio, senza le trascrizioni di riferimento come set di addestramento. Tuttavia, devi fornire dati audio e le relative trascrizioni di riferimento come parte del set di valutazione.
Passaggi successivi
Per sfruttare il perfezionamento del modello vocale nell'applicazione, esegui il deployment del modello seguendo la risorsa riportata di seguito: