Panoramica dei modelli vocali personalizzati

I modelli Speech-to-Text personalizzati ti aiutano a ottimizzare i modelli di riconoscimento vocale in base alle tue esigenze specifiche. Questo servizio è progettato per migliorare l'accuratezza e la pertinenza del servizio di riconoscimento vocale in diversi ambienti e casi d'uso, utilizzando i dati audio e di testo specifici del tuo dominio.

Accessibili sia nella nostra console Google Cloud che nell'API, i modelli Custom Speech-to-Text consentono di addestrare, valutare e implementare un modello vocale dedicato in un ambiente integrato senza codice. Per l'addestramento, puoi fornire solo dati audio rappresentativi delle tue condizioni audio, senza trascrizioni di riferimento come set di addestramento. Tuttavia, devi fornire i dati audio e le relative trascrizioni di riferimento come parte del set di valutazione.

La creazione e l'utilizzo di un modello Speech-to-Text personalizzato prevede i seguenti passaggi:

  1. Prepara e carica i dati di addestramento in un bucket Cloud Storage.
  2. Addestra un nuovo modello personalizzato.
  3. Esegui il deployment e gestisci il modello personalizzato utilizzando gli endpoint.
  4. Utilizza e valuta il modello personalizzato nella tua applicazione.

Come funziona

Puoi utilizzare i modelli personalizzati Speech-to-Text per aumentare un modello di trascrizione di base e migliorare il riconoscimento della trascrizione. Alcune condizioni audio, tra cui sirene, musica e rumore di fondo eccessivo, possono rappresentare sfide acustiche. Anche alcuni accenti o un vocabolario insolito, come i nomi dei prodotti, possono essere difficili da comprendere.

Ogni modello Speech-to-Text personalizzato utilizza un'architettura preaddestrata basata su Conformer come modello di base addestrato con dati proprietari di una lingua parlata comunemente. Durante il processo di addestramento, il modello di base viene ottimizzato adattando una percentuale significativa dei pesi originali per migliorare il riconoscimento del vocabolario specifico del dominio e delle condizioni audio specifiche per la tua applicazione.

Per l'addestramento efficace di un modello Custom Speech-to-Text, devi fornire:

  • Almeno 100 ore di dati di addestramento audio, solo audio o audio con la trascrizione di testo corrispondente come dati di riferimento. Questi dati sono fondamentali per la fase di addestramento iniziale, in modo che il modello apprenda in modo completo le sfumature dei modelli vocali e del vocabolario. Per maggiori dettagli, consulta Creare un set di dati di riferimento.
  • Un set di dati separato di almeno 10 ore di dati di convalida audio, con la trascrizione di testo corrispondente come dati di riferimento. Puoi scoprire di più sul formato previsto e sulle convenzioni di verità di riferimento da seguire nelle nostre istruzioni per la preparazione dei dati.

Dopo un addestramento riuscito, puoi eseguire il deployment di un modello Custom Speech-to-Text in un endpoint con un solo clic e utilizzarlo direttamente tramite l'API Cloud Speech-to-Text V2 per l'inferenza e il benchmarking.

Modelli, lingue e regioni supportati

I modelli Speech-to-Text personalizzati supportano le seguenti combinazioni di modelli, lingue e impostazioni internazionali per l'addestramento:

Lingua BCP-47 Modello di base

Tedesco (Germania)

de-DE

latest_long

Inglese (Australia)

en-AU

latest_long

Inglese (Regno Unito)

en-GB

latest_long

Inglese (India)

en-IN

latest_long

Inglese (Stati Uniti)

en-US

latest_long

Spagnolo (Stati Uniti)

es-US

latest_long

Spagnolo (Spagna)

es-ES

latest_long

Francese (Canada)

fr-CA

latest_long

Francese (Francia)

fr-FR

latest_long

Hindi (India)

hi-IN

latest_long

Italiano (Italia)

it-IT

latest_long

Giapponese (Giappone)

ja-JP

latest_long

Coreano (Corea del Sud)

ko-KR

latest_long

Olandese (Paesi Bassi)

nl-NL

latest_long

Portoghese (Brasile)

pt-BR

latest_long

Portoghese (Portogallo)

pt-PT

latest_long

Inoltre, per rispettare i requisiti di residenza dei dati, offriamo hardware di addestramento e deployment in diverse regioni. L'hardware dedicato è supportato nelle seguenti combinazioni di modelli e regioni:

Modello di base Google Cloud Regione Attività supportate

latest_long

us-east1

Addestramento e deployment

latest_long

europe-west4

Addestramento e deployment

Quota

Per l'addestramento del modello Custom Speech-to-Text, ogni progetto Google Cloud deve disporre di una quota predefinita sufficiente per eseguire più job di addestramento contemporaneamente ed è progettato per soddisfare le esigenze della maggior parte dei progetti senza ulteriori modifiche. Tuttavia, se devi eseguire un numero maggiore di job di addestramento simultanei o hai bisogno di risorse di calcolo o di etichettatura più estese, richiedi una quota aggiuntiva.

Per un modello Custom Speech-to-Text che gestisce un deployment di endpoint, ogni endpoint ha un limite teorico di 20 query al secondo (QPS). Se è necessaria una velocità effettiva maggiore, richiedi una quota di pubblicazione aggiuntiva.

Prezzi

La creazione e l'utilizzo di un modello Custom Speech-to-Text comportano determinati costi basati principalmente sulle risorse utilizzate durante l'addestramento e il successivo deployment del modello. Nello specifico, il modello Custom Speech-to-Text comporterà i seguenti costi in un ciclo di vita tipico del modello:

  • Addestramento: ti verrà addebitato il numero di ore di addestramento del modello. Questo tempo è proporzionale alla quantità di ore audio nel set di dati di addestramento. In genere, l'addestramento richiede un decimo del numero di ore audio nel set di dati.
  • Deployment: ti verrà addebitato un costo per ogni ora in cui un modello viene sottoposto a deployment su un endpoint.
  • Inferenza: ti verrà addebitato il numero di secondi di audio in streaming per la trascrizione, in linea con la fatturazione generale di Speech-to-Text.

Comprendere questi costi è fondamentale per una corretta definizione del budget e allocazione delle risorse. Per maggiori informazioni, consulta la sezione Modelli personalizzati di sintesi vocale Prezzi di Cloud Speech-to-Text.

Passaggi successivi

Consulta le risorse per sfruttare i modelli vocali personalizzati nella tua applicazione: