Preparare i dati di addestramento

Scopri come preparare i dati di testo e audio per l'ottimizzazione di un modello Speech-to-Text personalizzato nella console Speech di Google Cloud. La qualità dei dati di addestramento influisce sull'efficacia dei modelli creati. Dovrai comporre un set di dati diversificato che contenga un contesto audio e testo rappresentativo che sia direttamente pertinente a ciò a cui il modello risponderà durante la fase di inferenza in produzione, compresi rumore e vocabolario insolito.

Per l'addestramento efficace di un modello di conversione di voce in testo personalizzato, devi:

  • Minimo 100 ore audio di dati di addestramento, in solo audio o con la corrispondente trascrizione del testo come dato di fatto. Questi dati sono fondamentali per la fase di addestramento iniziale, in modo che il modello apprende le sfumature dei modelli vocali e del vocabolario. Per maggiori dettagli, vedi Creare un set di dati di riferimento
  • Un set di dati separato di almeno 10 ore audio di dati di convalida, con la trascrizione del testo corrispondente come dato di fatto.

Prima di iniziare

Assicurati di aver creato un account Google Cloud, un progetto Google Cloud e di aver attivato l'API Speech-to-Text:

  1. Vai a Cloud Storage.
  2. Crea un bucket, se non ne hai già uno.

Crea un set di dati

Per creare un set di dati, devi creare due sottodirectory nel bucket Cloud Storage di tua scelta. Segui semplici convenzioni di denominazione:

  1. Crea una sottodirectory training_dataset per archiviare tutti i file di addestramento.
  2. Crea una sottodirectory validation_dataset per archiviare tutti i file di addestramento.
  3. Carica i file audio e di testo nelle directory seguendo le linee guida per le annotazioni basate su dati empirici reali.

Linee guida per i set di dati

  • Sia per l'addestramento che per la convalida, i formati file supportati sono .wav per i file audio con codifica LINEAR16 e .txt per i file di testo, se disponibili. Evita i caratteri non ASCII nei nomi file.
  • I file audio nella stessa directory devono essere forniti in un file TXT separato, ciascuno con lo stesso nome del file WAV corrispondente, ad esempio my_file_1.wav, my_file_1.txt. Deve essere presente un solo file di trascrizione per file audio.

Dati di addestramento

  • Tutti i file per l'addestramento devono essere forniti nella stessa directory, senza cartelle nidificate.
  • (Facoltativo) Se disponibili, fornisci le trascrizioni dei file audio. Non sono richiesti timestamp.
  • Assicurati che la durata complessiva dell'audio dei tuoi file audio sia superiore a 100 ore. In caso contrario, il job di addestramento avrà esito negativo.

Ecco un esempio di come dovrebbe essere la struttura della directory dopo il caricamento dei file come set di dati di addestramento:

├── training_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   ├── example_2.txt
│   ├── example_3.wav (Note: Audio only instance, without corresponding text)
│   └── example_4.wav (Note: Audio only instance, without corresponding text)

Dati di convalida

  • Tutti i file per la convalida vengono forniti nella stessa directory denominata validation_dataset senza cartelle nidificate.
  • Gli audio di convalida non devono durare più di 30 secondi ciascuno.
  • Fornisci trascrizioni di dati empirici reali per ciascuno dei file audio presenti nella stessa directory in un file TXT separato.

Ecco un esempio di come dovrebbe essere la struttura della directory dopo il caricamento dei file come set di dati di convalida:

├── validation_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   └── example_2.txt

Linee guida per l'annotazione dei dati di fatto

Fai riferimento alle seguenti istruzioni di formattazione.

Numeri

Cardinali e ordinali devono essere trascritti solo in cifre.

  • Audio: "Un mazzo di carte ha cinquantadue carte, tredici ranghi dei quattro semi, diamanti, cuori e picche"
  • Testo di riferimento: "Un mazzo di carte contiene 52 carte, 13 rango dei quattro semi, quadri, cuori e picche"

Valuta e unità di misura

Trascrivili come sono comunemente scritti nella lingua di trascrizione. Abbrevia tutte le unità che seguono valori numerici. Se dal contesto è chiaro che un numero o una sequenza di numeri si riferisce a una valuta o a un'ora, formattalo di conseguenza.

Data e ora

Trascrivi nel formato comune per date e orari utilizzati nella lingua di trascrizione. Se possibile, scrivi gli orari nel formato hh:mm.

Indirizzi

Trascrivi con i nomi completi di località, strade e stati, ad esempio con le abbreviazioni quando vengono pronunciate esplicitamente. Le entità e le località devono essere trascritte utilizzando una virgola.

Nomi propri e accenti

Trascrivi usando l'ortografia e la punteggiatura ufficiali. Se un nome personale può avere più ortografie e il contesto non è utile, utilizza l'ortografia più frequente.

Brand, nomi di prodotti e titoli multimediali

Trascrivile nel formato ufficiale e nella forma più comune.

Interiezioni

Le risate o altre vocalizzazioni non verbali devono essere trascritte utilizzando fino a tre sillabe. Le risate incluse nel parlato devono essere completamente ignorate. Esempio:

  • Audio: "Ah ah ah ah"
  • Testo del riferimento: "hahaha"

Più interlocutori

Non separarli con i tag speaker, perché la diarizzazione in genere non è supportata.

Passaggi successivi

Segui le risorse per sfruttare i modelli vocali personalizzati nella tua applicazione: