Requisiti dei dati di addestramento

Addestrare una voce personalizzata può essere un'esperienza entusiasmante. Per assicurarti che il modello risultante aderisca alla tua vision, segui queste istruzioni e valuta la possibilità di collaborare con un partner o un direttore vocale.

Sebbene una certa variabilità stilistica contribuisca a dare vita alla voce, la costanza delle prestazioni è importante per tutta la durata delle registrazioni. Tutte le registrazioni con cambiamenti significativi di energia, utente tipo, livello di proiezione o frittura vocale (ad esempio per affaticamento) devono essere riprese, possibilmente dopo una breve pausa per il doppiatore. I file di riferimento delle corrispondenze devono essere riprodotti regolarmente per l'attore e il regista per garantire la coerenza tra tutte le righe registrate.

Scripting

Ti consigliamo di utilizzare uno script che corrisponda alle esigenze dell'utente tipo e della tua attività. Se non disponi di uno script, puoi crearne uno con Gemini o utilizzare il nostro script, disponibile in ciascuno dei nostri lingue supportati: de-DE | en-US | en-GB | es-US | es-ES | fr-AU | fr-AU | en-AUfr-FRit-ITja-JPpt-BR

Se crei il tuo script, il formato deve seguire uno schema simile:

  • 500 registrazioni singole (la somma totale di tutti i file di registrazione deve essere di circa 20-30 minuti).
  • Circa una registrazione per riga

Formattazione dei dati

Dovrai fornire un file CSV per allineare correttamente l'audio al tuo script. Ecco un file CSV di esempio.

  • Ogni registrazione deve includere una sola riga dello script, salvata come file WAV. Assegna al primo file il nome 0001.wav, assegna il secondo file 0002.wav e così via.
  • Colonna 1: nessuna intestazione. Le righe di script nel file audio.
  • L'URI gsutil del file audio WAV. Ad esempio: gs://YOUR_BUCKET_NAME/0001.wav.
  • Allinea il file CSV all'audio in modo che siano presenti file audio corrispondenti a ogni riga della trascrizione e che non ci siano righe vuote.
  • Suggerimento: includi nella trascrizione solo ciò che viene detto.
    • Non aggiungere numeri di riga (5. Dove sono gli arcobaleni?) o i codici non verbalizzati (Il codice postale è 08654 deve avere il formato Il codice postale è zero otto sei cinque quattro).
    • Spesso le parole finali pronunciate variano rispetto al testo iniziale. Per una qualità ottimale, assicurati di adattare il file CSV alla parola pronunciata finale anziché copiare e incollare lo script stesso.
    • Se visualizzi una sequenza di caratteri separati da spazi, pronuncia ogni carattere singolarmente. Pronuncia ogni lettera in optimize singolarmente.

Consigli per la registrazione

Questi sono i requisiti di registrazione ideali. Sebbene un modello possa essere addestrato senza soddisfare questi requisiti, non possiamo garantirne la qualità. I requisiti più importanti e comunemente trascurati sono: * Formato file audio standard (48 kHz/24 bit, WAV). L'audio può essere registrato con una frequenza di campionamento maggiore e sottocampionato a 48 kHz/24 bit. Non eseguire l'upcampionamento dell'audio da frequenze più basse. * Il volume medio target è -23 LUFS +- 2 (ITU-R BS.1770-3).

Specifiche di registrazione

  • Formato file audio standard (48 kHz/24 bit, WAV). L'audio può essere registrato con una frequenza di campionamento maggiore e sottocampionato a 48 kHz/24 bit. Non eseguire l'upcampionamento dell'audio da frequenze più basse.
  • L'audio deve essere registrato senza compressione con perdita di dati. È obbligatorio il formato PCM lineare (LPCM) con un'intestazione WAV. Fornisci audio in formato mono.
  • Studio di registrazione professionale di alta qualità con tempo di riflessione ridotto (RT) o tempo di decadimento (suono della stanza).
    • Su tutte le superfici riflettenti deve essere applicata una schiuma per trattamento acustico fino a quando il tempo RT non si riduce il più possibile.
  • Microfono professionale a condensatore a diaframma grande (U87, TLM 193 o simili).
  • Alto rapporto segnale-rumore (SNR), con gestione temporanea del guadagno e posizionamento del microfono appropriati.
  • I file audio devono avere brevi parti di silenzio all'inizio e alla fine (> 100 ms e <500 ms). Non aggiungere silenzio digitale (ovvero, aggiungi sequenze di 0).
  • L'audio deve essere registrato in modo uniforme, senza equalizzazione, compressione o altra DSP.
  • Assicurati che la registrazione sia pulita, senza rumori di sfondo o del canale evidenti.
  • Artefatti linguistici specifici da evitare: frittura vocale/scricciolo, respiro affannoso, balbuzie o pause non corrette all'interno di una frase

Associa file di riferimento

Le registrazioni di riferimento, o file di corrispondenza, sono file acquisiti all'inizio di un progetto di registrazione. Questi file vengono utilizzati durante l'intero progetto di registrazione e non devono essere modificati. Rappresentano le caratteristiche distintive delle prestazioni in termini di utente tipo, volume, energia, cadenza, articolazione, intonazione e proprietà spettrali. Il file di corrispondenza viene utilizzato come riferimento per tutte le registrazioni successive. Viene utilizzato durante una sessione di registrazione per calibrare l'acquisizione del segnale e fornire indicazioni e coerenza per un rendimento.

Crea un file di riferimento per le corrispondenze

Il processo di registrazione dei file delle corrispondenze viene eseguito in collaborazione con il regista (che indica il tipo di performance che sta cercando) e l'ingegnere di registrazione (che si assicura che nel file di corrispondenza venga acquisito il livello delle specifiche audio corrette). Tutto l'audio registrato deve essere conforme alle caratteristiche del file di corrispondenza. Utilizza questi file per garantire la coerenza dei seguenti parametri durante la registrazione:

  • Continuità utente e stile
  • Tono di base o tono dell'esecuzione
  • Velocità della voce
  • Volume

Passaggi successivi

Ora che i dati sono pronti, puoi creare il tuo modello vocale personalizzato.