Addestrare una voce personalizzata può essere un'esperienza entusiasmante. Per assicurarti che il modello risultante sia conforme alla tua visione, segui queste istruzioni e valuta la possibilità di lavorare con un socio o un regista.
Anche se una certa variabilità stilistica aiuta a dare vita a una voce, la coerenza dell'esecuzione è importante in tutte le registrazioni. Eventuali registrazioni con modifiche significative a livello di energia, personalità, livello di proiezione o frizione vocale (ad esempio a causa della stanchezza) devono essere registrate di nuovo, possibilmente dopo una breve pausa per l'attore. I file di riferimento delle corrispondenze devono essere riprodotti regolarmente per attore e regista per garantire la coerenza di tutte le linee registrate.
Scripting
Ti consigliamo di utilizzare il tuo script che corrisponda alle tue esigenze aziendali e degli utenti tipo. Se non hai uno script, puoi crearne uno con Gemini o utilizzare il nostro script, disponibile in tutte le lingue supportate: de-DE | en-US | en-GB | es-US | es-ES | en-AU | fr-CA | fr-FR | it-IT | ja-JP | pt-BR
Se crei il tuo script, il formato deve seguire uno schema simile:
- 500 registrazioni individuali (la somma totale di tutti i file di registrazione dovrebbe essere di circa 20-30 minuti).
- Circa una registrazione per riga
Formattazione dei dati
Dovrai fornire un file CSV per allineare correttamente l'audio al tuo script. Ecco un file CSV di esempio.
- Ogni registrazione deve includere una sola riga dello script, salvata come WAV
. Assegna al primo file il nome
0001.wav
, al secondo il nome0002.wav
e così via. - Colonna 1: nessuna intestazione. Le righe dello script nel file audio.
- L'URI gcloud storage del file audio WAV. Ad esempio:
gs://YOUR_BUCKET_NAME/0001.wav
. - Allinea il file CSV all'audio in modo che ci siano file audio corrispondenti per ogni riga della trascrizione e che non ci siano righe vuote.
- Suggerimento: includi solo ciò che viene detto nella trascrizione.
- Non aggiungere i numeri di riga (5. Dove sono gli arcobaleni?) o codici non verbalizzati (Il codice postale è 08654 deve essere formattato come Il codice postale è zero otto sei cinque quattro.).
- Spesso il testo finale del discorso è diverso da quello iniziale. Per una qualità ottimale, assicurati di modificare il file CSV in base alle parole finali pronunciate anziché copiare e incollare lo script stesso.
- Se vedi una sequenza di caratteri separati da spazi, pronuncia ogni carattere singolarmente. Pronuncia ogni lettera in optimize singolarmente.
Consigli per la registrazione
Questi sono i requisiti di registrazione ideali. Sebbene un modello possa essere comunque addestrato senza aver soddisfatto questi requisiti, non possiamo garantire la sua qualità. I requisiti più importanti e spesso trascurati sono:
- Formato file audio standard (48 kHz/24 bit, WAV). L'audio può essere registrato a una frequenza di campionamento e sottocampionamento a 48 kHz/24 bit. Non campionare l'audio a partire da frequenze più basse.
- Il volume medio target è -23 LUFS +- 2 (ITU-R BS.1770-3).
Specifiche per la registrazione
- Formato file audio standard (48 kHz/24 bit, WAV). L'audio può essere registrato con una frequenza di campionamento superiore e poi ridotto a 48 kHz/24 bit. Non campionare l'audio a partire da frequenze più basse.
- L'audio deve essere registrato senza compressione con perdita di dati. PCM lineare (LPCM) con un'intestazione WAV è obbligatorio. Fornisci audio in formato mono.
- Studio di registrazione professionale di alta qualità con tempo di riflessione ridotto (RT) oppure
tempo di decadimento (suono della stanza).
- Su tutte le superfici riflettenti deve essere applicata una schiuma acustica fino a quando il tempo di risposta viene ridotto il più basso possibile.
- Microfono a condensatore professionale con diaframma grande (U87, TLM 193 o equiparato).
- Rapporto segnale-rumore elevato (SNR), con gestione temporanea del guadagno e la posizione del microfono.
- I file audio devono avere brevi silenzio all'inizio e alla fine (>100 ms e <500 ms). Non aggiungere silenzio digitale (ovvero sequenze di 0).
- L'audio deve essere registrato in modo piatto senza equalizzazione, compressione o altro DSP.
- Assicurati che la registrazione sia pulita, senza rumore di fondo o del canale evidente.
- Artefatti linguistici specifici da evitare: vocal fry/creak, impostazione vocale soffocata, balbuzie o pause improprie nel mezzo di una frase
Associa file di riferimento
Le registrazioni di riferimento o i file di corrispondenza sono file acquisiti all'inizio di un progetto di registrazione. Questi file vengono utilizzati durante tutta la progetto di registrazione e non dovrebbe cambiare. Rappresentano il marchio distintivo caratteristiche del rendimento in termini di utente tipo, volume, energia, cadenza, articolazione, intonazione e proprietà spettrali. La del file delle corrispondenze viene utilizzato come riferimento per tutte le registrazioni successive. Viene utilizzato durante una sessione di registrazione per calibrare l'acquisizione del segnale e fornire indicazioni e coerenza per un'esibizione.
Creare un file di riferimento delle corrispondenze
La procedura di registrazione dei file delle corrispondenze viene eseguita in collaborazione con il regista (chi indica il tipo di performance che sta cercando) e la registrazione tecnico (che si assicura che venga acquisito il livello corretto delle specifiche audio file di abbinamento). Tutto l'audio registrato deve essere conforme ai caratteristiche. Utilizza questi file per garantire la coerenza dei seguenti parametri durante la registrazione:
- Continuità di personaggio e stile
- Tono o tonalità di base dell'esecuzione
- Velocità della voce
- Volume
Passaggi successivi
Ora che i dati sono pronti, puoi creare il tuo modello vocale personalizzato.