Nous vous suggérons de trouver et de travailler avec un doubleur vocal qui représente la voix personnalisée que vous souhaitez utiliser. Vous devez enregistrer environ 10 secondes de contenu audio avec votre doubleur vocal pour l'utiliser comme données d'entraînement. Vous devez également enregistrer la déclaration de consentement du doubleur vocal. L'entraînement et la mise en service du modèle cloné prennent moins de quelques minutes. Les bugs critiques pour les fonctionnalités pré-DG ne sont pas couverts par un contrat de niveau de service.
Étape 1 : Créer des données d'entraînement pour le clonage
- Enregistrez la déclaration de consentement: pour respecter les consignes légales et éthiques concernant le clonage de voix, enregistrez la déclaration de consentement requise en tant que fichier WAV mono, avec un encodage LINEAR16 et un taux d'échantillonnage de 24 kHz, dans la langue appropriée. (Je suis le propriétaire de cette voix et j'autorise Google à l'utiliser pour créer un modèle de voix synthétique.)
- Enregistrez l'audio initial: utilisez le micro de votre ordinateur pour enregistrer 10 secondes d'audio au format WAV mono encodé au format LINEAR16 avec un taux d'échantillonnage de 24 kHz. Assurez-vous qu'il n'y a pas de bruit de fond pendant l'enregistrement.
- Stockez les fichiers audio : sauvegardez les fichiers audio enregistrés dans un emplacement Cloud Storage désigné.
Étape 2 : Créer un modèle cloné
Vous pouvez créer un projet de clonage via la console Text-to-Speech.
Accédez à la page Synthesize dans la console Text-to-Speech.
Saisissez le texte qui sera converti en parole, puis sélectionnez le code de la langue cible (seul
en-US
s'applique).Cochez la case Voix personnalisée, puis cliquez sur Générer une clé.
Renseignez tous les champs obligatoires dans la tâche secondaire qui s'ouvre.
Une clé de clonage de voix devrait maintenant apparaître dans le formulaire de synthèse :
Vous pouvez enregistrer cette clé pour un usage ultérieur afin d'éviter de devoir répéter la procédure "Générer une clé" à l'avenir.
Activez la section Paramètres avancés, saisissez 24000 dans le champ Taux d'échantillonnage (Hertz), puis cliquez sur Synthétiser.
Pour le moment, nous ne synthétisons que les voix clonées à 24 kHz.
Vous pouvez télécharger ou lire le contenu audio immédiatement pour l'écouter.