Exigences relatives aux données d'entraînement

L'entraînement d'une voix personnalisée peut être une expérience passionnante. Pour vous assurer que le modèle obtenu respecte votre vision, suivez ces instructions et envisagez de travailler avec un partenaire ou un directeur vocal.

Bien qu'une certaine variabilité stylisée permette de donner vie à votre voix, la cohérence des performances est importante pour l'ensemble de vos enregistrements. Tous les enregistrements présentant des changements majeurs au niveau de l'énergie, la persona, le niveau de projection ou la friction vocale (par exemple, en raison de la fatigue) doivent être effectués à nouveau, éventuellement après une courte pause pour le doubleur vocal. Les fichiers de référence de correspondance doivent être lus régulièrement devant le doubleur et le réalisateur afin de garantir la cohérence de toutes les lignes enregistrées.

Créer des scripts

Si vous créez votre propre script, le format doit suivre un modèle similaire :

500 enregistrements individuels (la somme totale de l'ensemble des fichiers d'enregistrement doit être d'environ 20 à 30 minutes)
Environ un enregistrement par ligne

Format de données

Vous devrez fournir un fichier CSV pour aligner correctement l'audio sur votre script. Voici un exemple de fichier CSV.

Chaque enregistrement ne doit inclure qu'une ligne du script, enregistrée sous la forme d'un fichier WAV. Nommez votre premier fichier 0001.wav, nommez votre deuxième fichier 0002.wav, etc.
Colonne 1 : aucun en-tête Lignes du script dans le fichier audio.
L'URI gcloud Storage du fichier audio WAV. Exemple : gs://YOUR_BUCKET_NAME/0001.wav.
Alignez le fichier CSV avec l'audio exactement de sorte qu'il y ait des fichiers audio correspondants pour chaque ligne de la transcription et qu'il n'y ait pas de lignes vides.
Remarque : n'incluez que ce qui est prononcé dans la transcription.
- N'ajoutez pas de numéros de lignes (5. Où se trouvent les arcs-en-ciel ?) ou les codes non verbalisés (le code postal est 08654 doit être au format Le code postal est zéro huit six cinq quatre).
- Souvent, les mots prononcés à la fin diffèrent du script initial. Pour une qualité optimale, veillez à ajuster le fichier CSV au texte final plutôt que de copier-coller le script lui-même.
- Si vous voyez une séquence de caractères séparés par des espaces, prononcez chaque caractère individuellement. Prononcez chaque lettre de optimiser individuellement.

Recommandations d'enregistrement

Voici les conditions d'enregistrement idéales. Bien qu'un modèle puisse être entraîné sans avoir rempli ces exigences, nous ne pouvons pas garantir sa qualité. Les exigences les plus importantes, et généralement négligées, sont les suivantes :

Format de fichier audio standard (48 kHz/24 bits, WAV). L'audio peut être enregistré à une fréquence d'échantillonnage plus élevée et rétro-échantillonné à 48 kHz/24 bits. N'effectuez pas de sur-échantillonnage de l'audio à partir d'une fréquence inférieure.
Le volume sonore moyen cible est de -23 LUFS +-2 (ITU-R BS.1770-3).

Spécifications d'enregistrement

Format de fichier audio standard (48 kHz/24 bits, WAV). L'audio peut être enregistré à une fréquence d'échantillonnage plus élevée et rétro-échantillonné à 48 kHz/24 bits. N'effectuez pas de sur-échantillonnage de l'audio à partir d'une fréquence inférieure.
L'audio doit être enregistré sans compression avec perte. Le format LPCM (Linear PCM) avec un en-tête WAV est requis. Fournir un audio mono.
Studio d'enregistrement professionnel de haute qualité avec un faible temps de réflexion ou de décroissance (son ambiant).
- Toute surface réfléchissante doit être recouverte d'une mousse de traitement acoustique jusqu'à ce que le temps de réflexion soit réduit au niveau le plus bas possible.
Microphone professionnel à condensateur à large diaphragme (U87, TLM 193, ou comparable).
Rapport signal/bruit (SNR) élevé, avec une mise en scène du gain et un placement du microphone appropriés.
Les fichiers audio doivent comporter de courts silences au début et à la fin (>100 ms et <500ms). Veuillez ne pas ajouter de silence numérique (c'est-à-dire, ajouter des séquences de 0).
L'audio doit être enregistré à plat sans égalisation, compression ou autre DSP.
Assurez-vous que l'enregistrement est propre, sans bruit de fond ou de canal évident.
Artefacts linguistiques spécifiques à éviter : voix grinçante/grincement, essoufflement, bégaiement ou pauses inappropriées au milieu d'une phrase

Fichiers de référence de correspondance

Les enregistrements de référence, ou fichiers de correspondance, sont des fichiers enregistrés au début d'un projet d'enregistrement. Ces fichiers sont utilisés pendant l'intégralité du projet d'enregistrement et ne doivent pas être modifiés. Ils représentent les caractéristiques principales des performances en termes de persona, de volume, d'énergie, de cadence, d'articulation, d'intonation et de propriétés spectrales. Le fichier de correspondance est utilisé comme référence pour tous les enregistrements ultérieurs. Tout au long d'une session d'enregistrement, il permet de calibrer la capture du signal, de fournir des conseils et d'assurer la cohérence au niveau d'une performance.

Créer un fichier de référence de correspondance

Le processus d'enregistrement des fichiers de correspondance est effectué en collaboration avec le réalisateur (qui indique le type de performances qu'il recherche) et l'ingénieur d'enregistrement (qui s'assure que le niveau de spécification audio approprié est capturé dans le fichier de correspondance). Tous les enregistrements audio doivent être conformes aux caractéristiques du fichier de correspondance. Utilisez ces fichiers pour garantir la cohérence des paramètres suivants tout au long de l'enregistrement :

Continuité de la personnalité et du style
Hauteur ou ton initial de la réalisation
Vitesse d'élocution
Volume

Étapes suivantes

Maintenant que les données sont prêtes, vous pouvez créer votre modèle vocal personnalisé.