Panoramica dei modelli vocali personalizzati

I modelli Speech-to-Text personalizzati ti aiutano a ottimizzare i modelli di riconoscimento vocale in base alle tue esigenze specifiche. Questo servizio è progettato per migliorare l'accuratezza e la pertinenza del servizio di riconoscimento vocale in diversi ambienti e casi d'uso, utilizzando i dati audio e di testo specifici del tuo dominio.

Accessibili sia nella console sia nell'API Google Cloud, i modelli Speech-to-Text personalizzati consentono di addestrare, valutare e implementare un modello vocale dedicato in un ambiente integrato senza codice. Per l'addestramento puoi fornire solo dati audio rappresentativi delle tue condizioni audio, senza trascrizioni di riferimento come set di addestramento. Tuttavia, devi fornire i dati audio e le relative trascrizioni di riferimento come parte del set di valutazione.

La creazione e l'utilizzo di un modello di conversione di Speech-to-Text personalizzato prevede i seguenti passaggi:

  1. Prepara e carica i dati di addestramento in un bucket Cloud Storage.
  2. Addestra un nuovo modello personalizzato.
  3. Esegui il deployment e gestisci il tuo modello personalizzato utilizzando gli endpoint.
  4. Utilizza e valuta il modello personalizzato nella tua applicazione.

Come funziona

Puoi utilizzare i modelli Speech-to-Text personalizzati per migliorare un modello di trascrizione di base e il riconoscimento della trascrizione. Alcune condizioni audio, tra cui sirene, musica e rumore di fondo eccessivo, possono creare problemi acustici. Anche determinati accenti o un vocabolario insolito, come i nomi dei prodotti, possono causare problemi.

Ogni modello Speech-to-Text personalizzato utilizza un'architettura basata su Conformer preaddestrata come modello di base addestrato con dati proprietari del linguaggio comunemente parlato. Durante la procedura di addestramento, il modello di base viene ottimizzato adattando una percentuale significativa dei pesi originali per migliorare il riconoscimento del vocabolario specifico del dominio e delle condizioni audio specifiche della tua applicazione.

Per l'addestramento efficace di un modello di conversione da Speech-to-Text personalizzato, devi fornire:

  • Almeno 100 ore audio di dati di addestramento, solo audio o audio con la trascrizione del testo corrispondente come dati di fatto. Questi dati sono fondamentali per la fase di addestramento iniziale, in modo che il modello apprenda in modo completo le sfumature dei modelli vocali e del vocabolario. Per maggiori dettagli, consulta Creare un set di dati di riferimento.
  • Un set di dati separato di almeno 10 ore audio di dati di convalida, con la trascrizione del testo corrispondente come dati di fatto. Puoi scoprire di più sul formato previsto e sulle convenzioni di dati di riferimento da seguire nelle nostre istruzioni per la preparazione dei dati.

Dopo un addestramento riuscito, puoi implementare un modello Speech-to-Text personalizzato in un endpoint con un solo clic e utilizzarlo direttamente tramite l'API Cloud Speech-to-Text V2 per l'inferenza e il benchmarking.

Modelli, lingue e regioni supportati

I modelli Speech-to-Text personalizzati supportano le seguenti combinazioni di modelli, lingue e impostazioni internazionali per l'addestramento:

Lingua BCP-47 Modello di base

Tedesco (Germania)

de-DE

latest_long

Inglese (Australia)

en-AU

latest_long

Inglese (Regno Unito)

en-GB

latest_long

Inglese (India)

en-IN

latest_long

Inglese (Stati Uniti)

en-US

latest_long

Spagnolo (Stati Uniti)

es-US

latest_long

Spagnolo (Spagna)

es-ES

latest_long

Francese (Canada)

fr-CA

latest_long

Francese (Francia)

fr-FR

latest_long

Hindi (India)

hi-IN

latest_long

Italiano (Italia)

it-IT

latest_long

Giapponese (Giappone)

ja-JP

latest_long

Coreano (Corea del Sud)

ko-KR

latest_long

Olandese (Paesi Bassi)

nl-NL

latest_long

Portoghese (Brasile)

pt-BR

latest_long

Portoghese (Portogallo)

pt-PT

latest_long

Inoltre, per rispettare i requisiti di residenza dei dati, offriamo hardware per la formazione e l'implementazione in regioni diverse. L'hardware dedicato è supportato nelle seguenti combinazioni di modelli e regioni:

Modello di base Regione Google Cloud Attività supportate

latest_long

us-east1

Addestramento e deployment

latest_long

europe-west4

Addestramento e deployment

Quota

Per l'addestramento del modello Speech-to-Text personalizzato, ogni progetto Google Cloud deve avere una quota predefinita sufficiente per eseguire più job di addestramento contemporaneamente e deve soddisfare le esigenze della maggior parte dei progetti senza ulteriori aggiustamenti. Tuttavia, se devi eseguire un numero maggiore di job di addestramento simultanei o hai bisogno di risorse di calcolo o di etichettatura più ampie, richiedi una quota aggiuntiva.

Per un modello Speech-to-Text personalizzato che esegue il deployment di un endpoint, ogni endpoint ha un limite teorico di 20 query al secondo (QPS). Se è necessario un throughput più elevato, richiedi una quota di pubblicazione aggiuntiva.

Prezzi

La creazione e l'utilizzo di un modello di conversione di Speech-to-Text testo personalizzato comportano determinati costi, in base principalmente alle risorse utilizzate durante l'addestramento e il successivo dispiegamento del modello. Nello specifico, il modello di conversione da Speech-to-Text personalizzato avrà i seguenti costi in un ciclo di vita del modello tipico:

  • Addestramento: ti verrà addebitato il numero di ore di addestramento del modello. Questo tempo è proporzionale alla quantità di ore audio nel set di dati di addestramento. In genere, l'addestramento richiede un decimo del numero di ore di audio nel set di dati.
  • Deployment: ti verrà addebitato un importo per ogni ora di deployment di un modello in un endpoint.
  • Inferenza: ti verrà addebitato il numero di secondi di audio in streaming per la trascrizione, in linea con la fatturazione generale di Speech-to-Text.

Comprendere questi costi è fondamentale per un'allocazione delle risorse e un budget efficaci. Per ulteriori informazioni, consulta la sezione Modelli di conversione di testo in voce personalizzati per informazioni sui prezzi di Cloud Speech-to-Text.

Passaggi successivi

Segui le risorse per sfruttare i modelli vocali personalizzati nella tua applicazione: