Créer un modèle de voix personnalisé pour vos applications de reconnaissance vocale

Vous pouvez créer vos propres modèles de voix personnalisées dans l'interface utilisateur de Text-to-Speech.

Prérequis

  1. Activer l'API Text-to-Speech
  2. Enregistrez votre contenu audio en suivant les exigences concernant les données d'entraînement.
  3. Créer un bucket Cloud Storage
  4. Importez les fichiers audio dans votre nouveau bucket au format spécifié par les exigences relatives aux données d'entraînement (0001.wav, 0002.wav... 0200.wav, etc.).

Entraîner un nouveau modèle de voix personnalisée

  1. Ouvrez l'onglet Voix personnalisée dans l'interface utilisateur de Text-to-Speech.
  2. Cliquez sur Créer en haut de l'écran.
  3. Attribuez un nom à votre modèle de voix.
  4. Spécifiez la langue dans le menu déroulant des langues acceptées.
  5. Sélectionnez le fichier CSV approprié dans la configuration du bucket à l'étape 4 des conditions préalables.
  6. Importez la déclaration de consentement du doubleur vocal. Exemple : "Je, (nom) accepte que ma voix soit utilisée pour créer une voix synthétique personnalisée."
  7. Cliquez sur Créer pour lancer la création du modèle. La création du modèle peut prendre jusqu'à 3 jours.
  8. Pour connaître l'état du job d'entraînement, consultez les notifications de votre console dans l'en-tête de navigation en haut à droite.

Étapes suivantes

Une fois l'entraînement du modèle terminé, des exemples de fichiers audio de sortie sont disponibles dans la console. Vous pouvez utiliser ces fichiers pour effectuer une évaluation initiale de la qualité du modèle. Si elle répond à vos exigences, contactez votre équipe commerciale pour obtenir de l'aide pour le déploiement du modèle. Le déploiement prend deux à trois semaines. Nous vous recommandons donc d'effectuer une évaluation rapide et de communiquer le plus tôt possible.