Essayez Gemini 3, notre meilleur modèle pour le raisonnement, le codage et la compréhension multimodale dans Gemini Enterprise Agent Platform

Text-to-Speech

IA Text-to-Speech

Convertissez du texte en discours naturel à l'aide d'une API optimisée par les meilleures technologies d'IA de Google.

Les nouveaux clients bénéficient de jusqu'à 300 $ de crédits pour essayer Text-to-Speech et d'autres produits Google Cloud.

Fournissez des réponses intelligentes et réalistes aux utilisateurs grâce à des voix IA naturelles.
Créez des interfaces vocales pour les applications avec la synthèse vocale intégrée.
Personnalisez vos communications et l'audio en fonction des préférences de voix et de langue de vos utilisateurs.

Découvrez comment créer une voix synthétique à l'aide de l'API Text-to-Speech

Démarrer l'atelier d'auto-formation

Avantages

Discours ultra-réaliste

Déployez la technologie révolutionnaire de Google pour générer du discours aux intonations quasiment humaines. Créée grâce à l'expertise en synthèse vocale de DeepMind, l'API fournit des voix très proches des voix humaines.

La plus grande sélection de voix

Faites votre choix parmi plus de 380 voix et plus de 75 langues et variantes, incluant l'arabe, l'espagnol, l'hindi, le mandarin, le russe et plus encore. Sélectionnez la voix qui convient le mieux à votre utilisateur et à votre application.

Voix unique

Différenciez-vous des autres entreprises : au lieu d'utiliser une voix générique, créez une voix unique qui incarne votre marque à tous les points de contact avec les clients.

Démonstration

Testez Text-to-Speech

Saisissez le texte de votre choix, choisissez une langue, puis cliquez sur "Speak It" (Synthétiser) pour écouter l'audio.

Principales fonctionnalités

Gemini-TTS

Synthétisez la voix d'un ou plusieurs locuteurs, allant de courts extraits à des récits complets, tout en conservant la contextualité. Vous pouvez dicter précisément le style, l'accent, le rythme, le ton et les émotions exprimées, le tout en utilisant des prompts simples en langage naturel dans plus de 75 langues et variantes. Accédez à Media Studio ou consultez notre documentation pour en savoir plus.

Chirp 3 : voix HD

Créez des agents engageants à l'aide des dernières voix naturelles basées sur AudioLM. Ces voix offrent un son de haute qualité, un streaming à faible latence et un discours spontané, avec des hésitations, une palette émotionnelle et une intonation fidèles à la voix humaine. Accédez à Media Studio ou consultez notre documentation pour en savoir plus.

Chirp 3 : voix personnalisée instantanée

Créez des modèles de voix personnalisés à partir d'un enregistrement audio d'au moins 10 secondes. Idéale pour les jeux vidéo, les livres audio, les podcasts et plus encore, cette fonctionnalité est disponible dans plus de 30 langues. Accédez à Media Studio ou consultez notre documentation pour en savoir plus.

Prise en charge des prompts, du texte et de SSML

Contrôlez le format des nombres et de l'heure, la diffusion, la prononciation et l'émotion à l'aide de scripts en texte brut simples, de balises SSML ou même de prompts en langage naturel efficaces, selon la prise en charge du modèle. Accédez à Media Studio ou consultez notre documentation pour en savoir plus.

Nouveautés

Inscrivez-vous à la newsletter Google Cloud pour recevoir des informations sur les produits et événements, des offres spéciales et plus encore.

Illustration vectorielle de personnes disant "Bonjour" dans différentes langues

Blog post

L'API Cloud Text-to-Speech de Google intègre désormais les voix personnaliséesLire l'article de blog

Personne tenant un smartphone sur lequel est affiché un livre audio créé à l'aide de Text-to-Speech

Video

Convertir des PDF en livres audio grâce au machine learningRegarder la vidéo

Dessin illustrant une conversation optimisée par l'IA avec Contact Center AI

Blog post

L'IA conversationnelle permet d'optimiser l'expérience clientLire l'article de blog

Femme en train de parler au téléphone qu'elle tient devant elle

Video

Améliorer l'accessibilité au téléphone grâce à Speech-to-Text et Text-to-SpeechRegarder la vidéo

Mention "Langues et voix de Cloud Text-to-Speech" au-dessus d'environ 25 drapeaux de pays du monde

Blog post

Nouvelles voix et langues pour Text-to-SpeechLire l'article de blog

Documentation

Quickstart

Gemini-TTS

Découvrez comment contrôler précisément la synthèse vocale avec Gemini-TTS, en utilisant des prompts en langage naturel pour définir le style, le ton, le rythme et les émotions exprimées.

Quickstart

Présentation de Chirp 3 : voix HD

Apprenez à synthétiser des voix réalistes qui expriment des émotions naturelles avec Chirp 3 : voix HD. Découvrez aussi comment affiner l'audio grâce à des commandes avancées et aux bonnes pratiques d'écriture de script.

Quickstart

Présentation de Chirp 3 : voix personnalisée instantanée

Créez des modèles de voix uniques et personnalisés à partir d'enregistrements audio de seulement 10 secondes pour votre entreprise. Cette fonctionnalité permet de générer rapidement des voix sur mesure.

Tutorial

Énoncer des adresses avec SSML

Découvrez comment utiliser le langage SML (Speech Synthesis Markup Language) pour énoncer un fichier texte d'adresses.

Google Cloud Basics

Concepts de base de Text-to-Speech

Ce guide présente les concepts fondamentaux de l'utilisation de l'API Text-to-Speech.

Google Cloud Basics

Voix et langues compatibles

Consultez les guides et ressources associés à ce produit.

Vous ne trouvez pas ce que vous cherchez ?

Notes de version

Découvrez les dernières mises à jour de Text-to-Speech.

Cas d'utilisation

Les bots vocaux dans les centres de contact

Proposez une meilleure expérience vocale avec votre service client grâce aux bots vocaux sur Customer Experience Agent Studio : générez du discours de manière dynamique plutôt que de diffuser des messages audio statiques pré-enregistrés. Boostez l'engagement grâce à des voix synthétiques de haute qualité donnant aux interlocuteurs un sentiment de familiarité et de personnalisation.

Flux de l'API Google Cloud Speech-to-Text

Cas d'utilisation

La génération de voix sur les appareils

Établissez une communication naturelle avec vos utilisateurs en utilisant des voix humaines pour lire du texte sur vos appareils. Développez une interface vocale de bout en bout avec Speech-to-Text et Natural Language, et améliorez l'expérience utilisateur grâce à des interactions faciles et engageantes.

Diagramme de la reconnaissance vocale avec des appareils et l'IoT

Cas d'utilisation

Guides électroniques des programmes (EPG) accessibles

Permettez aux EPG de lire du texte à voix haute facilement, afin d'améliorer l'expérience utilisateur et de répondre aux exigences d'accessibilité de vos services et applications. Découvrez comment utiliser les EPG.

Implémentez facilement la fonctionnalité de synthèse vocale dans les EPG, afin d'améliorer l'expérience utilisateur et de répondre aux exigences d'accessibilité de vos services et applications.

Flux entre les EPG et l'API Text-to-Speech

Toutes les fonctionnalités

Synthèse audio en flux continu	Optimisez vos agents IA avec une latence ultra-faible pour des conversations fluides en temps réel grâce à la synthèse audio en flux.
Synthèse audio longue	Synthétisez de manière asynchrone jusqu'à un million d'octets d'entrée avec la synthèse audio longue.
Sélection de voix et de langues	Faites votre choix parmi une large sélection de plus de 380 voix dans plus de 75 langues et variantes, enrichie prochainement.
Texte et compatibilité SSML	Personnalisez votre discours en ajoutant des balises SSML. Elles vous permettent d'ajouter des pauses, un format de nombre, de date et d'heure, ainsi que des instructions de prononciation.
Réglage de la hauteur de voix	Personnalisez la hauteur de la voix sélectionnée, jusqu'à 20 demi-tons en plus ou en moins par rapport au paramètre par défaut.
Réglage de la vitesse d'élocution	Ajustez la vitesse d'élocution pour obtenir un discours quatre fois plus lent ou plus rapide que la normale.
Contrôle du volume	Augmentez le volume de la sortie (jusqu'à 16 dB en plus) ou réduisez-le (jusqu'à 96 dB en moins).
API REST et gRPC intégrées	Profitez de la compatibilité avec tous les appareils et applications qui peuvent envoyer des requêtes REST ou gRPC, tels que les téléphones, les ordinateurs, les tablettes et les appareils IoT (voitures, téléviseurs, enceintes, etc.).
Flexibilité du format audio	Convertissez du texte aux formats audio MP3, Linear16, Ogg Opus, etc.
Profils audio	Optimisez la lecture pour le type de haut-parleur diffusant l'audio (casque ou ligne téléphonique, par exemple).

Tarification

L'utilisation de Text-to-Speech est facturée mensuellement en fonction du nombre de caractères envoyés au service pour synthèse audio. Pour les voix WaveNet, le premier million de caractères est à 0 € chaque mois. Pour les voix standards (autres que WaveNet), les quatre premiers millions de caractères sont à 0 € chaque mois. Après la première tranche sans frais, Text-to-Speech est facturé par tranche d'un million de caractères texte traités.

Si vous ne payez pas en dollars américains (USD), les tarifs indiqués dans votre devise sur la page des SKU de Google Cloud s'appliquent.

Passez à l'étape suivante

Les nouveaux clients bénéficient de 300 $ de crédits pour essayer Text-to-Speech et d'autres produits Google Cloud.

Vous avez besoin d'aide pour vous lancer ?
Contacter le service commercial
Faites appel à un partenaire de confiance
Trouver un partenaire
Poursuivez vos recherches
Voir tous les produits

IA Text-to-Speech

Discours ultra-réaliste

La plus grande sélection de voix

Voix unique

Testez Text-to-Speech

Principales fonctionnalités

Gemini-TTS

Chirp 3 : voix HD

Chirp 3 : voix personnalisée instantanée

Prise en charge des prompts, du texte et de SSML

Nouveautés

Documentation

Gemini-TTS

Présentation de Chirp 3 : voix HD

Présentation de Chirp 3 : voix personnalisée instantanée

Énoncer des adresses avec SSML

Concepts de base de Text-to-Speech

Voix et langues compatibles

Vous ne trouvez pas ce que vous cherchez ?

Explorez plus de documents

Cas d'utilisation

Les bots vocaux dans les centres de contact

La génération de voix sur les appareils

Guides électroniques des programmes (EPG) accessibles

Toutes les fonctionnalités

Tarification

Passez à l'étape suivante

Vous avez besoin d'aide pour vous lancer ?

Faites appel à un partenaire de confiance

Poursuivez vos recherches