Types de voix

Text-to-Speech génère des données audio de voix humaines naturelles. Cela veut dire que cette API génère des contenus audio qui font penser qu'une personne parle. Lorsque vous envoyez une requête de synthèse à Text-to-Speech, vous devez spécifier une voix.

Une large sélection de voix personnalisées est disponible dans Text-to-Speech. Celles-ci diffèrent selon la langue, le genre et l'accent (pour certaines langues). Vous pouvez également avoir le choix entre plusieurs voix. Consultez la page Voix disponibles pour obtenir la liste complète des voix disponibles dans votre langue. Vous pouvez indiquer à Text-to-Speech d'utiliser une voix spécifique de cette liste en définissant les champs VoiceSelectionParams lorsque vous envoyez une requête à l'API. Pour en savoir plus sur l'envoi d'une requête synthesize, consultez les guides de démarrage rapide de Text-to-Speech.

Voix Journey (preview)

Les voix Journey fournies par le moteur AudioLM vous permettent de créer un discours plus engageant et empathique pour les applications de conversation. Grâce au streaming de texte, les voix Journey permettent une communication en temps réel à faible latence et sont compatibles avec les langues listées dans le tableau des voix disponibles.

Expériences de chat


en-US-Journey-F

Assistants virtuels


en-US-Journey-D

Chatbots de service client


en-US-Journey-F

Applications pédagogiques interactives


en-US-Journey-O

Ventes et argumentaires


en-US-Journey-D

Racontez une histoire


en-US-Journey-F

Voix informelles (preview)

Les voix informelles ont été conçues pour gérer les dialogues conversationnels imparfaits de manière à offrir une expérience naturelle et confortable aux utilisateurs humains. Elles traitent les disfluences (oh, uh, hum, mmh), et ont un rythme et un ton plus naturels.


Voix Studio

Les voix Studio sont des voix de narration conçues pour la lecture d'actualités et la diffusion de contenus.


Exemple 1. Lecture de Gatsby le Magnifique par la voix en-US-Studio-O.

Voix Neural2

L'API Text-to-Speech fournit un niveau de voix appelé Neural2. Les voix Neural2 sont basées sur la même technologie que celle utilisée pour créer une voix personnalisée. Neural2 permet à n'importe quel utilisateur d'utiliser la technologie de voix personnalisée sans avoir à entraîner sa propre voix personnalisée. Elles sont disponibles dans des points de terminaison mondiaux et de région unique.


Exemple 1. Voix Neural2

Voix WaveNet

L'API Text-to-Speech offre également un éventail de voix haut de gamme générées à l'aide d'un modèle WaveNet, à savoir la technologie utilisée pour produire de la parole dans l'Assistant Google, la recherche Google et Google Traduction. La technologie WaveNet ne se limite pas à une série de voix synthétiques : elle représente une nouvelle façon de créer un discours synthétique.

WaveNet génère des voix qui sonnent plus naturelles que celles d'autres systèmes de synthèse vocale. Il synthétise la voix avec une emphase et une inflexion plus humaines sur les syllabes, les phonèmes et les mots.

Graphique illustrant une préférence marquée des locuteurs natifs pour WaveNet Figure 1. Graphique comparant WaveNet à d'autres voix synthétiques et à la voix humaine Les valeurs de l'axe des ordonnées représentent le score MOS (ou note moyenne d'opinion) pour chaque voix. Les sujets de test ont classé chaque voix sur une échelle de 1 à 5 en fonction du son émis par la voix naturelle. Pour en savoir plus sur les scores MOS et la technologie WaveNet, consultez la page DeepMind WaveNet.

Contrairement à la plupart des systèmes de synthèse vocale, un modèle WaveNet crée des formes d'ondes sonores brutes à partir de zéro. Il fait appel à un réseau de neurones entraîné à l'aide d'un grand nombre d'échantillons vocaux. Pendant l'entraînement, le réseau extrait la structure sous-jacente de la parole, par exemple quelles tonalités se succèdent et à quoi ressemble une forme d'onde vocale réaliste. Lorsqu'il reçoit une entrée de texte, le modèle WaveNet entraîné peut générer les formes d'ondes vocales correspondantes à partir de zéro, un échantillon à la fois, et ce, en traitant jusqu'à 24 000 échantillons par seconde et en réalisant des transitions fluides entre chaque son.

Pour entendre la différence entre un extrait audio généré par WaveNet et un extrait généré par un autre processus de synthèse vocale, comparez les deux extraits audio ci-dessous.


Exemple 1. Voix non-WaveNet de haute qualité


Exemple 2. Voix WaveNet

Voix standards

Les voix proposées par Text-to-Speech peuvent différer selon la façon dont elles sont produites, c'est-à-dire selon la technologie de synthèse vocale utilisée pour créer le modèle de machine de la voix. La synthèse vocale paramétrique est une technologie vocale courante qui génère habituellement des données audio en transmettant des sorties à des algorithmes de traitement du signal, appelés vocodeurs. La plupart des voix standards disponibles dans Text-to-Speech utilisent une variante de cette technologie.