Cette page a été traduite par l'API Cloud Translation.
Switch to English

Présentation de la voix personnalisée (version bêta)

L'API Cloud Text-to-Speech propose désormais la fonctionnalité de voix personnalisée (version bêta). Cette fonctionnalité vous permet d'entraîner un modèle de voix personnalisé à l'aide de vos propres enregistrements audio de qualité studio afin de créer une voix unique. Vous pouvez utiliser votre voix personnalisée pour synthétiser des contenus audio à l'aide de l'API Cloud Text-to-Speech. Actuellement, seul l'anglais américain (en-US) est accepté.

Pour demander l'accès à la fonctionnalité de voix personnalisée, veuillez remplir ce formulaire.

Données audio d'entraînement fournies par l'utilisateur

La fonctionnalité de voix personnalisée propose un modèle de synthèse vocale aussi semblable que possible aux données audio que vous avez fournies. Une fois votre cas d'utilisation approuvé, Google vous envoie un script pour les enregistrements vocaux. Nous vous suggérons de trouver et de travailler avec un doubleur vocal qui représente la voix personnalisée que vous souhaitez utiliser. Vous devez enregistrer un contenu audio de qualité studio avec votre doubleur vocal pour l'utiliser comme données d'entraînement. Si vos données d'entraînement ne passent pas les contrôles internes de validation et de validation de Google, vous devrez peut-être les réenregistrer ou les soumettre à nouveau après avoir corrigé les problèmes identifiés.

Entraînement de modèle

Il faut plusieurs semaines à Google pour entraîner et évaluer votre modèle de voix personnalisé. Les bugs critiques pour les fonctionnalités bêta ne sont pas couverts par un contrat de niveau de service.

Tests d'évaluation et d'acceptation par l'utilisateur

Google effectue une première phase d'évaluation du modèle entraîné. Une fois nos critères internes de qualité remplis, nous vous envoyons quelques échantillons audio hors connexion enregistrés à l'aide de votre modèle personnalisé. Vous suivez ensuite le processus UAT (ou processus de test d'acceptation par l'utilisateur) pour évaluer les résultats audio et approuver officiellement le modèle.