Cette page a été traduite par l'API Cloud Translation.

Voix compatibles

Text-to-Speech génère des contenus audio de qualité naturelle et humaine, qui donnent l'impression que la voix est celle d'une personne réelle. Pour commencer, spécifiez une voix lorsque vous envoyez une requête de synthèse.

Text-to-Speech propose différentes voix en fonction de la langue, du genre et de l'accent. Certaines langues proposent plusieurs options. Pour obtenir la liste complète, consultez la page Voix disponibles. Pour sélectionner une voix, utilisez le champ VoiceSelectionParams dans votre requête API.

Présentation

Type de voix		Destiné à	Étape de lancement	Contrôle	Streaming
Chirp 3: voix HD		Agents conversationnels	Aperçu	-	Oui
Voix Chirp HD		Agents conversationnels	Aperçu	-	Oui
Studio	Groupe d' enceintes	Médias: discussions et interviews	Expérimental	-	-
Studio	Un orateur personne	Média: Narration	DG	SSML	-
Neural2		À usage général	DG	SSML	-
Standard		Économique	DG	SSML	-

Détail des tarifs

Chirp 3: voix HD

Chirp 3: les voix HD sont basées sur une technologie qui capture les nuances des intonations humaines, ce qui rend les conversations plus attrayantes. Ces voix sont disponibles dans 8 styles distincts dans de nombreuses langues, et conviennent aussi bien aux applications standards qu'aux applications en temps réel.

Voix Chirp HD

Les voix Chirp HD sont basées sur la dernière génération de nos modèles d'IA générative. Les voix Chirp HD vous permettent de créer un discours plus engageant et empathique pour les applications de conversation. Grâce au streaming de texte, les voix Chirp HD permettent une communication en temps réel à faible latence et sont compatibles avec les langues listées dans le tableau des voix disponibles.

Expériences de chat

Voix: en-US-Chirp-HD-F

Autres exemples

Assistants virtuels

Voix: en-US-Chirp-HD-D

Chatbots de service client

Voix: en-US-Chirp-HD-F

Applications pédagogiques interactives

Voix: en-US-Chirp-HD-O

Ventes et argumentaires

Voix: en-US-Chirp-HD-D

Racontez une histoire

Voix: en-US-Chirp-HD-F

Voix Studio pour plusieurs haut-parleurs

Créez des discussions et des interviews avec les nouvelles voix studio multilocuteurs, qui reposent sur la même technologie que les voix Chirp HD.

Exemple: Voix Studio pour plusieurs haut-parleurs

Voix Studio

Les voix Studio sont conçues pour la lecture d'actualités et la diffusion de contenus.

Exemple: Lecture de Gatsby le Magnifique par la voix en-US-Studio-O.

Voix Neural2

L'API Text-to-Speech fournit un niveau de voix appelé Neural2. Les voix Neural2 sont basées sur la même technologie que celle utilisée pour créer une voix personnalisée. Neural2 permet à n'importe quel utilisateur d'utiliser la technologie de voix personnalisée sans avoir à entraîner sa propre voix personnalisée. Elles sont disponibles dans des points de terminaison mondiaux et de région unique.

Exemple: voix Neural2

Voix standards

Les voix proposées par Text-to-Speech diffèrent selon la technologie de synthèse vocale utilisée pour créer le modèle de machine de la voix. La synthèse vocale paramétrique est une technologie vocale courante qui génère habituellement des données audio en transmettant des sorties à des algorithmes de traitement du signal, appelés vocodeurs. La plupart des voix standards disponibles dans Text-to-Speech utilisent une variante de cette technologie.

Étape suivante

Pour savoir comment envoyer une requête synthesize, consultez les guides de démarrage rapide.

Voix compatibles Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Présentation

Chirp 3: voix HD

Voix Chirp HD

Expériences de chat

Autres exemples

Assistants virtuels

Chatbots de service client

Applications pédagogiques interactives

Ventes et argumentaires

Racontez une histoire

Voix Studio pour plusieurs haut-parleurs

Voix Studio

Voix Neural2

Voix standards

Étape suivante

Voix compatibles