Addestra e gestisci modelli

Utilizzando l'API, senza alcun codice, puoi creare e addestrare un modello Speech-to-Text personalizzato per migliorare l'accuratezza del riconoscimento rispetto a un modello Speech-to-Text esistente. Questo servizio completamente gestito esegue automaticamente il provisioning delle risorse di calcolo, esegue il codice dell'applicazione di addestramento e garantisce l'eliminazione delle risorse di computing dopo il job di addestramento. Ottieni un modello di trascrizione completamente perfezionato, utile per qualsiasi applicazione downstream.

Analogamente ai modelli di machine learning, l'addestramento di un modello Speech-to-Text personalizzato è in genere iterativo e comporta la selezione di un modello di base come punto di partenza, il perfezionamento con i tuoi set di dati audio e di testo, quindi il test della qualità del riconoscimento del modello. Se i risultati non sono quelli previsti, riaddestra un nuovo modello con una combinazione di dati diversa, esegui un nuovo test o utilizzalo direttamente per la trascrizione nel tuo dominio.

Prima di iniziare

Assicurati di aver eseguito la registrazione per un account Google Cloud, creato un progetto Google Cloud e abilitato l'API Speech-to-Text: vai a Speech nella console Google Cloud e poi all'API Speech-to-Text. Utilizza la sezione Modelli personalizzati della barra di navigazione a sinistra.

Crea un modello personalizzato

Per iniziare, crea un modello Speech-to-Text personalizzato e definisci i relativi parametri, come il modello di base e la lingua di trascrizione:

  1. Fai clic su Crea per creare un modello personalizzato.
  2. Inserisci un Nome modello che verrà utilizzato per la visualizzazione e a cui verrà fatto riferimento nelle richieste API e nella console Google Cloud Speech.
  3. Inserisci una descrizione per il modello.
  4. Seleziona un modello di base più adatto al tuo caso d'uso.
  5. Seleziona la Lingua della trascrizione del modello.
  6. Seleziona la regione in cui deve avvenire l'addestramento.
  7. Fai clic su Continua.
Screenshot del flusso di lavoro di creazione di un modello Speech-to-Text personalizzato, che mostra i campi obbligatori per il modello personalizzato

Per completare la definizione del job del modello Speech-to-Text personalizzato e avviare l'addestramento, dovrai definire i set di dati di addestramento e convalida.

  1. Seleziona un set di dati di addestramento fornendo un URI della directory Cloud Storage valido. Assicurati che siano presenti solo file audio e di testo e che la durata totale dell'audio rispetti i requisiti del set di dati di addestramento.
  2. Seleziona un set di dati di convalida fornendo un URI della directory Cloud Storage valido. Assicurati che siano presenti solo file audio e di testo e che la durata totale dell'audio sia conforme ai requisiti del set di dati di convalida.
  3. Fai clic su Crea per avviare il processo di addestramento.

Se non vengono indicizzate un numero sufficiente di ore audio o se i file non seguono le linee guida, il job di addestramento non andrà a buon fine.

Screenshot del flusso di lavoro di creazione di modelli Speech-to-Text personalizzati, che mostra i campi obbligatori per i set di dati di addestramento e convalida del modello personalizzato

I job di addestramento possono essere messi in coda dietro altri job nel nostro sistema e l'addestramento di un modello può richiedere da un paio d'ore a qualche giorno, a seconda delle dimensioni del set di dati. Al termine dell'addestramento, il suo stato viene contrassegnato come Attivo.

Elimina un modello personalizzato

Prima di iniziare, assicurati che non ci sia traffico instradato al tuo modello Speech-to-Text personalizzato tramite qualsiasi endpoint, perché la sua eliminazione impedirà al modello di gestire eventuali richieste.

  1. Vai alla scheda Modelli nella sezione Modelli personalizzati.
  2. Fai clic per espandere le opzioni e poi fai clic su Elimina. Tra qualche istante il modello Speech-to-Text personalizzato verrà eliminato, insieme a tutti i suoi endpoint, e non gestirà più traffico.

Elenco dei modelli personalizzati

Selezionando Modelli nella sezione Modelli personalizzati, puoi anche elencare tutti i modelli Speech-to-Text personalizzati, compresi quelli in fase di addestramento, attivi ed eliminati.

Screenshot del flusso di lavoro dell'elenco di modelli Speech-to-Text personalizzati, che mostra una tabella con tutti i modelli personalizzati già creati

Passaggi successivi

Segui le risorse per sfruttare i modelli vocali personalizzati nella tua applicazione: