Preparare i dati di addestramento

Scopri come preparare i dati di testo e audio per l'ottimizzazione di un modello Speech-to-Text personalizzato nella Google Cloud console Speech. La qualità dei dati di addestramento influisce sull'efficacia dei modelli creati. Dovrai comporre un set di dati diversificato che contenga un contesto audio e di testo rappresentativo direttamente pertinente a ciò a cui il modello risponderà durante il tempo di inferenza in produzione, inclusi rumore e vocabolario insolito.

Per l'addestramento efficace di un modello di conversione da voce a testo personalizzato, devi avere:

  • Almeno 100 ore audio di dati di addestramento, solo audio o con la trascrizione del testo corrispondente come dati di fatto. Questi dati sono fondamentali per la fase di addestramento iniziale, in modo che il modello apprenda le sfumature dei modelli vocali e del vocabolario. Per maggiori dettagli, vedi Creare un set di dati di riferimento
  • Un set di dati separato di almeno 10 ore audio di dati di convalida, con la trascrizione del testo corrispondente come dati di fatto.

Prima di iniziare

Assicurati di aver creato un Google Cloud account, un Google Cloud progetto e di aver attivato l'API Speech-to-Text:

  1. Vai a Cloud Storage.
  2. Crea un bucket, se non ne hai già uno.

Crea un set di dati

Per creare un set di dati, devi creare due sottodirectory nel bucket Cloud Storage che preferisci. Segui semplici convenzioni di denominazione:

  1. Crea una sottodirectory training_dataset per archiviare tutti i file di addestramento.
  2. Crea una sottodirectory validation_dataset per archiviare tutti i file di addestramento.
  3. Carica i file audio e di testo nelle directory seguendo le linee guida per l'annotazione dei dati empirici reali.

Linee guida per i set di dati

  • Sia per l'addestramento che per la convalida, i formati di file supportati sono .wav per i file audio con codifica LINEAR16 e .txt per i file di testo, se disponibili. Evita i caratteri non ASCII nei nomi file.
  • I file audio nella stessa directory devono essere forniti in un file TXT separato, ciascuno con lo stesso nome del file WAV corrispondente, ad esempio mio_file_1.wav, mio_file_1.txt. Deve essere presente un solo file di trascrizione per file audio.

Dati di addestramento

  • Tutti i file per l'addestramento devono essere forniti nella stessa directory, senza cartelle nidificate.
  • (Facoltativo) Se disponibili, fornisci le trascrizioni dei file audio. Non sono richiesti timestamp.
  • Assicurati che la durata audio cumulativa dei tuoi file audio sia superiore a 100 ore. In caso contrario, il job di addestramento non andrà a buon fine.

Ecco un esempio di come dovrebbe essere la struttura della directory dopo il caricamento dei file come set di dati di addestramento:

├── training_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   ├── example_2.txt
│   ├── example_3.wav (Note: Audio only instance, without corresponding text)
│   └── example_4.wav (Note: Audio only instance, without corresponding text)

Dati di convalida

  • Tutti i file per la convalida vengono forniti nella stessa directory denominata validation_dataset senza cartelle nidificate.
  • Gli audio di convalida non devono durare più di 30 secondi ciascuno.
  • Fornisci le trascrizioni dei dati di fatto per ciascuno dei file audio nella stessa directory in un file TXT separato.

Ecco un esempio di come dovrebbe essere la struttura della directory dopo il caricamento dei file come set di dati di convalida:

├── validation_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   └── example_2.txt

Linee guida per l'annotazione dei dati di fatto

Fai riferimento alle seguenti istruzioni di formattazione.

Numeri

I numeri cardinali e ordinali devono essere trascritti solo con cifre.

  • Audio: "Un mazzo di carte contiene 52 carte, 13 rango delle quattro semi, quadri, cuori e picche"
  • Testo di riferimento: "Un mazzo di carte contiene 52 carte, 13 rango dei quattro semi, quadri, cuori e picche"

Valuta e unità di misura

Trascrivili come sono comunemente scritti nella lingua di trascrizione. Abbrevia tutte le unità che seguono i valori numerici. Se dal contesto è chiaro che un numero o una sequenza di numeri si riferisce a una valuta o a un'ora, formattalo di conseguenza.

Data e ora

Trascrivi le date e le ore nella forma comune utilizzata nella lingua della trascrizione. Scrivi le ore nel formato hh:mm, se possibile.

Indirizzi

Trascrivi con i nomi completi di località, strade e stati, ad esempio con le abbreviazioni quando vengono pronunciate esplicitamente. Le entità e le località devono essere trascritte inserendo una virgola tra una e l'altra.

Nomi propri e accenti

Trascrivi utilizzando l'ortografia e la punteggiatura ufficiali. Se un nome personale può avere più ortografie e il contesto non è utile, utilizza l'ortografia più frequente.

Brand, nomi dei prodotti e titoli dei contenuti multimediali

Trascrivile nel formato ufficiale e nella forma più comune.

Interiezioni

Le risate o altre vocalizzazioni non verbali devono essere trascritte utilizzando fino a tre sillabe. Le risate incluse nel parlato devono essere ignorate completamente. Esempio:

  • Audio: "ha ha ha ha ha"
  • Testo del riferimento: "hahaha"

Più altoparlanti

Non separarli con i tag speaker, perché la diarizzazione in genere non è supportata.

Passaggi successivi

Segui le risorse per sfruttare i modelli vocali personalizzati nella tua applicazione: