Utilizzando l'API, senza alcun codice, puoi creare e addestrare un modello Speech-to-Text personalizzato per migliorare l'accuratezza del riconoscimento rispetto a un modello Speech-to-Text esistente. Questo servizio completamente gestito esegue automaticamente il provisioning delle risorse di calcolo, esegue il codice dell'applicazione di addestramento e garantisce l'eliminazione delle risorse di computing dopo il job di addestramento. Ottieni un modello di trascrizione completamente perfezionato, utile per qualsiasi applicazione downstream.
Analogamente ai modelli di machine learning, l'addestramento di un modello Speech-to-Text personalizzato è in genere iterativo e comporta la selezione di un modello di base come punto di partenza, il perfezionamento con i tuoi set di dati audio e di testo, quindi il test della qualità del riconoscimento del modello. Se i risultati non sono quelli previsti, riaddestra un nuovo modello con una combinazione di dati diversa, esegui un nuovo test o utilizzalo direttamente per la trascrizione nel tuo dominio.
Prima di iniziare
Assicurati di aver eseguito la registrazione per un account Google Cloud, creato un progetto Google Cloud e abilitato l'API Speech-to-Text: vai a Speech nella console Google Cloud e poi all'API Speech-to-Text. Utilizza la sezione Modelli personalizzati della barra di navigazione a sinistra.
Crea un modello personalizzato
Per iniziare, crea un modello Speech-to-Text personalizzato e definisci i relativi parametri, come il modello di base e la lingua di trascrizione:
- Fai clic su Crea per creare un modello personalizzato.
- Inserisci un Nome modello che verrà utilizzato per la visualizzazione e a cui verrà fatto riferimento nelle richieste API e nella console Google Cloud Speech.
- Inserisci una descrizione per il modello.
- Seleziona un modello di base più adatto al tuo caso d'uso.
- Seleziona la Lingua della trascrizione del modello.
- Seleziona la regione in cui deve avvenire l'addestramento.
- Fai clic su Continua.
Per completare la definizione del job del modello Speech-to-Text personalizzato e avviare l'addestramento, dovrai definire i set di dati di addestramento e convalida.
- Seleziona un set di dati di addestramento fornendo un URI della directory Cloud Storage valido. Assicurati che siano presenti solo file audio e di testo e che la durata totale dell'audio rispetti i requisiti del set di dati di addestramento.
- Seleziona un set di dati di convalida fornendo un URI della directory Cloud Storage valido. Assicurati che siano presenti solo file audio e di testo e che la durata totale dell'audio sia conforme ai requisiti del set di dati di convalida.
- Fai clic su Crea per avviare il processo di addestramento.
Se non vengono indicizzate un numero sufficiente di ore audio o se i file non seguono le linee guida, il job di addestramento non andrà a buon fine.
I job di addestramento possono essere messi in coda dietro altri job nel nostro sistema e l'addestramento di un modello può richiedere da un paio d'ore a qualche giorno, a seconda delle dimensioni del set di dati. Al termine dell'addestramento, il suo stato viene contrassegnato come Attivo.
Elimina un modello personalizzato
Prima di iniziare, assicurati che non ci sia traffico instradato al tuo modello Speech-to-Text personalizzato tramite qualsiasi endpoint, perché la sua eliminazione impedirà al modello di gestire eventuali richieste.
- Vai alla scheda Modelli nella sezione Modelli personalizzati.
- Fai clic per espandere le opzioni e poi fai clic su Elimina. Tra qualche istante il modello Speech-to-Text personalizzato verrà eliminato, insieme a tutti i suoi endpoint, e non gestirà più traffico.
Elenco dei modelli personalizzati
Selezionando Modelli nella sezione Modelli personalizzati, puoi anche elencare tutti i modelli Speech-to-Text personalizzati, compresi quelli in fase di addestramento, attivi ed eliminati.
Passaggi successivi
Segui le risorse per sfruttare i modelli vocali personalizzati nella tua applicazione:
- Esegui il deployment e gestisci gli endpoint del modello .
- Utilizzare i modelli personalizzati
- Valutare i modelli personalizzati