Fonctionnalités de base de la voix personnalisée

Présentation

L'API Cloud Text-to-Speech propose désormais la fonctionnalité de voix personnalisée. Cette fonctionnalité vous permet d'entraîner un modèle de voix personnalisé à l'aide de vos propres enregistrements audio de qualité studio afin de créer une voix unique. Vous pouvez utiliser votre voix personnalisée pour synthétiser des contenus audio à l'aide de l'API Cloud Text-to-Speech.

Données audio d'entraînement fournies par l'utilisateur

La fonctionnalité de voix personnalisée propose un modèle de synthèse vocale aussi semblable que possible aux données audio que vous avez fournies. Une fois votre cas d'utilisation approuvé, Google vous envoie un script pour les enregistrements vocaux. Nous vous suggérons de sélectionner et d'engager un doubleur vocal qui représente la voix personnalisée que vous souhaitez utiliser. Vous devez enregistrer du contenu audio de qualité studio avec votre doubleur vocal pour l'utiliser en tant que données d'entraînement (consultez la page Exigences liées aux données d'entraînement pour plus d'informations). Si vos données d'entraînement ne passent pas les contrôles de qualité internes de Google, vous devrez peut-être les réenregistrer ou les soumettre à nouveau après avoir corrigé les problèmes identifiés.

Entraînement de modèle

Il faut plusieurs semaines à Google pour entraîner votre modèle de voix personnalisé.

Deployment

Après l'entraînement, Google déploie le modèle de voix personnalisé sur les projets de votre choix.

Étape suivante