Documentation sur Text-to-Speech

Voix personnalisée

L'API Cloud Text-to-Speech propose désormais les voix personnalisées. Cette fonctionnalité vous permet d'entraîner un modèle de voix personnalisé à l'aide de vos propres enregistrements audio de qualité studio afin de créer une voix unique. Vous pouvez utiliser votre voix personnalisée pour synthétiser des contenus audio à l'aide de l'API Cloud Text-to-Speech.

Pour mettre en œuvre la voix personnalisée, veuillez contacter un membre de l'équipe commerciale.

Exemples de voix personnalisées

Vous pouvez écouter des exemples de voix personnalisées à l'aide des exemples suivants. Le premier exemple audio correspond à la voix d'origine. Vous pouvez ensuite écouter deux exemples de voix personnalisées basés sur l'original.

Femme : voix d'origine		Homme : voix d'origine
Femme : exemple de voix personnalisée #1		Homme : exemple de voix personnalisée #1
Femme : exemple de voix personnalisée #2		Homme : exemple de voix personnalisée #2

Données audio d'entraînement fournies par l'utilisateur

La fonctionnalité de voix personnalisée propose un modèle de synthèse vocale aussi semblable que possible aux données audio que vous avez fournies. Une fois votre cas d'utilisation approuvé, Google vous envoie un script pour les enregistrements vocaux. Nous vous suggérons de trouver et de travailler avec un doubleur vocal qui représente la voix personnalisée que vous souhaitez utiliser. Vous devez enregistrer un contenu audio de qualité studio avec votre doubleur vocal pour l'utiliser comme données d'entraînement. Si vos données d'entraînement ne passent pas les contrôles internes de validation et de validation de Google, vous devrez peut-être les réenregistrer ou les soumettre à nouveau après avoir corrigé les problèmes identifiés.

Entraînement de modèle

Il faut plusieurs semaines à Google pour entraîner et évaluer votre modèle de voix personnalisé. Les bugs critiques pour les fonctionnalités bêta ne sont pas couverts par un contrat de niveau de service.

Tests d'évaluation et d'acceptation par l'utilisateur

Google effectue une première phase d'évaluation du modèle entraîné. Une fois nos critères internes de qualité remplis, nous vous envoyons quelques échantillons audio hors connexion enregistrés à l'aide de votre modèle personnalisé. Vous suivez ensuite le processus UAT (ou processus de test d'acceptation par l'utilisateur) pour évaluer les résultats audio et approuver officiellement le modèle.

Guide de démarrage rapide

Se lancer en cinq minutes

API et documentation de référence

Documentation de référence sur REST et gRPC