Requisiti dei dati di addestramento

L'addestramento di una voce personalizzata può essere un'esperienza entusiasmante. Per assicurarti che il modello risultante rispetti la tua visione, segui queste istruzioni e valuta la possibilità di collaborare con un partner o un regista vocale.

Anche se una certa variabilità stilistica aiuta a dare vita a una voce, la coerenza dell'esecuzione è importante in tutte le registrazioni. Eventuali registrazioni con modifiche significative a livello di energia, personalità, livello di proiezione o frizione vocale (ad esempio a causa della stanchezza) devono essere registrate di nuovo, possibilmente dopo una breve pausa per l'attore. I file di riferimento per le voci devono essere riprodotti regolarmente per l'attore e il regista per garantire la coerenza di tutte le righe registrate.

Scripting

Ti consigliamo di utilizzare il tuo script in base alle esigenze della tua persona e della tua attività. Se non hai uno script, puoi crearne uno con Gemini o utilizzare il nostro script, disponibile in tutte le lingue supportate: de-DE | en-US | en-GB | es-US | es-ES | en-AU | fr-CA | fr-FR | it-IT | ja-JP | pt-BR

Se crei il tuo script, il formato deve seguire uno schema simile:

  • 500 registrazioni singole (la somma totale di tutti i file di registrazione deve essere di circa 20-30 minuti).
  • Circa una registrazione per riga

Formattazione dei dati

Dovrai fornire un file CSV per allineare correttamente l'audio allo script. Ecco un esempio di file CSV.

  • Ogni registrazione deve includere una sola riga dello script, salvata come file WAV. Assegna il nome 0001.wav al primo file, 0002.wav al secondo e così via.
  • Colonna 1: nessuna intestazione. Le righe dello script nel file audio.
  • L'URI gcloud storage del file audio WAV. Ad esempio: gs://YOUR_BUCKET_NAME/0001.wav.
  • Allinea il file CSV all'audio in modo che esistano file audio corrispondenti per ogni riga della trascrizione e non ci siano righe vuote.
  • Suggerimento: includi solo ciò che viene detto nella trascrizione.
    • Non aggiungere i numeri di riga (5. Dove sono gli arcobaleni?) o codici non verbalizzati (Il codice postale è 08654 deve essere formattato come Il codice postale è zero otto sei cinque quattro.).
    • Spesso le parole finali pronunciate variano dallo script iniziale. Per una qualità ottimale, assicurati di modificare il file CSV in base alle parole finali pronunciate anziché copiare e incollare lo script stesso.
    • Se vedi una sequenza di caratteri separati da spazi, pronuncia ogni carattere singolarmente. Pronuncia ogni lettera di ottimizza singolarmente.

Consigli per la registrazione

Questi sono i requisiti ideali per la registrazione. Sebbene un modello possa essere comunque addestrato senza aver soddisfatto questi requisiti, non possiamo garantire la sua qualità. I requisiti più importanti e spesso trascurati sono:

  • Formato file audio standard (48 kHz/24 bit, WAV). L'audio può essere registrato con una frequenza di campionamento superiore e poi ridotto a 48 kHz/24 bit. Non eseguire l'upsampling dell'audio da frequenze inferiori.
  • Il volume medio target è -23 LUFS +- 2 (ITU-R BS.1770-3).

Specifiche di registrazione

  • Formato file audio standard (48 kHz/24 bit, WAV). L'audio può essere registrato con una frequenza di campionamento superiore e poi ridotto a 48 kHz/24 bit. Non eseguire l'upsampling dell'audio da frequenze inferiori.
  • L'audio deve essere registrato senza compressione con perdita di dati. È necessario il formato PCM lineare (LPCM) con un'intestazione WAV. Fornisci audio in formato mono.
  • Uno studio di registrazione professionale di alta qualità con tempo di riverbero (RT) o tempo di decadimento (suono della stanza) ridotto.
    • A tutte le superfici riflettenti deve essere applicata schiuma per il trattamento acustico fino a quando il tempo di RT non viene ridotto al livello più basso possibile.
  • Microfono a condensatore professionale con diaframma grande (U87, TLM 193 o equivalente).
  • Rapporto segnale/rumore (SNR) elevato, con una corretta gestione del guadagno e il posizionamento del microfono.
  • I file audio devono avere brevi silenzi all'inizio e alla fine (>100 ms e <500 ms). Non aggiungere silenzio digitale (ovvero sequenze di 0).
  • L'audio deve essere registrato in modo piatto senza equalizzazione, compressione o altri DSP.
  • Assicurati che la registrazione sia pulita, senza rumore di fondo o del canale evidente.
  • Artefatti linguistici specifici da evitare: vocal fry/creak, impostazione vocale soffocata, balbuzie o pause improprie nel mezzo di una frase

Abbina i file di riferimento

Le registrazioni di riferimento o i file di corrispondenza sono file acquisiti all'inizio di un progetto di registrazione. Questi file vengono utilizzati per l'intera durata del progetto di registrazione e non devono essere modificati. Rappresentano le caratteristiche distintive della performance in termini di personalità, volume, energia, cadenza, articolazione, intonazione e proprietà spettrali. Il file di corrispondenza viene utilizzato come riferimento per tutte le registrazioni successive. Viene utilizzato durante una sessione di registrazione per calibrare l'acquisizione del segnale e fornire indicazioni e coerenza per un'esibizione.

Creare un file di riferimento delle corrispondenze

La procedura di registrazione dei file di corrispondenza viene eseguita in collaborazione con il regista (che indica il tipo di esecuzione che sta cercando) e l'ingegnere di registrazione (che si assicura che nel file di corrispondenza venga acquisito il livello di specifiche audio corretto). Tutto l'audio registrato deve essere conforme alle caratteristiche del file di corrispondenza. Utilizza questi file per garantire la coerenza dei seguenti parametri durante la registrazione:

  • Continuità di personalità e stile
  • Tono o tonalità di base dell'esecuzione
  • Velocità del parlato
  • Volume

Passaggi successivi

Ora che i dati sono pronti, puoi creare il tuo modello vocale personalizzato.