Créer un modèle de voix personnalisé pour vos applications de reconnaissance vocale

Vous pouvez créer vos propres modèles de voix personnalisées dans l'interface utilisateur de Text-to-Speech.

Prérequis

Activer l'API Text-to-Speech
Enregistrez votre contenu audio en suivant les exigences concernant les données d'entraînement.
Créer un bucket Cloud Storage
Importez les fichiers audio dans votre nouveau bucket au format spécifié par les exigences concernant les données d'entraînement (0001.wav, 0002.wav, 0200.wav, etc.).

Entraîner un nouveau modèle de voix personnalisée

Ouvrez l'onglet Voix personnalisée dans l'interface utilisateur de Text-to-Speech.
Cliquez sur Créer en haut de l'écran.
Attribuez un nom à votre modèle de voix.
Spécifiez la langue dans le menu déroulant des langues acceptées.
Sélectionnez le fichier CSV approprié dans la configuration du bucket à l'étape 4 des conditions préalables.
Importez la déclaration de consentement du doubleur vocal. Exemple : "Je suis le propriétaire de cette voix et j'accepte que Google l'utilise pour créer un modèle de voix synthétique."
Cliquez sur Créer pour lancer la création du modèle. La création du modèle peut prendre jusqu'à 3 jours.
Pour connaître l'état du job d'entraînement, consultez les notifications de votre console dans l'en-tête de navigation en haut à droite.

Étapes suivantes

Une fois l'entraînement du modèle terminé, des exemples de fichiers audio de sortie sont disponibles dans la console. Vous pouvez utiliser ces fichiers pour effectuer une première évaluation de la qualité du modèle. Si elle répond à vos exigences, contactez votre équipe commerciale pour obtenir de l'aide pour le déploiement du modèle. Le déploiement prend deux à trois semaines, c'est pourquoi nous recommandons une évaluation rapide et une communication dans les meilleurs délais.