Addestrare e gestire i modelli

Utilizzando l'API, senza alcun codice, puoi creare e addestrare un modello Speech-to-Text personalizzato per migliorare l'accuratezza del riconoscimento di un modello Speech-to-Text esistente. Questo servizio completamente gestito esegue automaticamente il provisioning delle risorse di calcolo, esegue il codice dell'applicazione di addestramento e garantisce l'eliminazione delle risorse di calcolo dopo il job di addestramento. Ottieni un modello di trascrizione completamente ottimizzato utile per qualsiasi applicazione a valle.

Come per i modelli di machine learning, l'addestramento di un modello Speech-to-Text personalizzato è in genere iterativo e prevede la selezione di un modello di base come punto di partenza, l'ottimizzazione con i set di dati di testo e audio e il test della qualità di riconoscimento del modello. Se i risultati non sono quelli che ti aspettavi, puoi addestrare un nuovo modello con una combinazione diversa di dati, eseguire di nuovo il test o utilizzarlo direttamente per la trascrizione nel tuo dominio.

Prima di iniziare

Assicurati di aver creato un Google Cloud account, un Google Cloud progetto e di aver attivato l'API Speech-to-Text: vai a Speech nella console Google Cloud e vai all'API Speech-to-Text. Esegui operazioni nella sezione Modelli personalizzati della barra di navigazione a sinistra.

Crea un modello personalizzato

Per iniziare, crea un modello Speech-to-Text personalizzato e definisci i relativi parametri, come il modello di base e la lingua della trascrizione:

  1. Fai clic su Crea per creare un modello personalizzato.
  2. Inserisci un nome del modello, che verrà utilizzato per la visualizzazione e a cui verrà fatto riferimento nelle richieste API e nella Google Cloud console Speech.
  3. Inserisci una Descrizione per il modello.
  4. Seleziona un modello di base più adatto al tuo caso d'uso.
  5. Seleziona la Lingua della trascrizione del modello.
  6. Seleziona la Regione in cui deve essere eseguita la formazione.
  7. Fai clic su Continua.
Screenshot del flusso di lavoro per la creazione del modello di conversione da Speech-to-Text personalizzato, che mostra i campi richiesti per il modello personalizzato

Per completare la definizione del job del modello di conversione da Speech-to-Text personalizzato e avviare l'addestramento, devi definire i set di dati di addestramento e convalida.

  1. Seleziona un set di dati di addestramento fornendo un URI directory Cloud Storage valido. Assicurati che siano presenti solo file audio e di testo e che la durata totale dell'audio rispetti i requisiti del set di dati di addestramento.
  2. Seleziona un set di dati di convalida fornendo un URI directory Cloud Storage valido. Assicurati che siano presenti solo file audio e di testo e che la durata totale dell'audio rispetti i requisiti del set di dati di convalida.
  3. Fai clic su Crea per avviare la procedura di addestramento.

Se non vengono indicizzate ore di audio sufficienti o i file non rispettano le linee guida, il job di addestramento non andrà a buon fine.

Screenshot del flusso di lavoro per la creazione di un modello Speech-to-Text personalizzato, che mostra i campi richiesti per i set di dati di addestramento e convalida del modello personalizzato

I job di addestramento possono essere messi in coda dietro altri job nel nostro sistema e l'addestramento di un modello può richiedere da un paio d'ore a qualche giorno, a seconda delle dimensioni del set di dati. Dopo l'addestramento del modello, il relativo stato verrà contrassegnato come Attivo.

Eliminare un modello personalizzato

Prima di iniziare, assicurati che non venga inoltrato traffico al tuo modello di conversione di Speech-to-Text personalizzato tramite nessun endpoint, perché l'eliminazione ne impedirà il servizio per qualsiasi richiesta.

  1. Vai alla scheda Modelli della sezione Modelli personalizzati.
  2. Fai clic per espandere le opzioni e poi su Elimina. Tra qualche istante il modello di conversione di voce in testo personalizzato verrà eliminato, insieme a tutti i relativi endpoint, e non gestirà più alcun traffico.

Elencare i modelli personalizzati

Se selezioni Modelli nella sezione Modelli personalizzati, puoi anche elencare tutti i tuoi modelli di conversione di voce in testo personalizzati, inclusi quelli in fase di addestramento, attivi ed eliminati.

Screenshot del flusso di lavoro dell'elenco dei modelli Speech-to-Text personalizzati, che mostra una tabella con tutti i modelli personalizzati già creati

Passaggi successivi

Segui le risorse per sfruttare i modelli vocali personalizzati nella tua applicazione: