Essayez Gemini 1.5 Pro, notre modèle multimodal le plus avancé dans Vertex AI et découvrez ce que vous pouvez compiler avec une fenêtre de contexte d'un million de jetons.

Text-to-Speech

IA Text-to-Speech

Convertissez du texte en discours naturel à l'aide d'une API optimisée par les meilleures technologies d'IA de Google.

Les nouveaux clients bénéficient d'un maximum de 300 $ de crédits pour essayer Text-to-Speech et d'autres produits Google Cloud.

Profiter d'un essai gratuit de Text-to-Speech Contacter le service commercial

Améliorez les interactions avec vos clients grâce à des réponses intelligentes et réalistes.
Boostez l'engagement des utilisateurs grâce à une interface vocale sur vos appareils et applications.
Personnalisez votre communication en fonction des préférences de voix et de langue de vos utilisateurs.

Le sommet Applied ML Summit est désormais disponible à la demande. Inscrivez-vous pour développer de nouvelles compétences.

S'inscrire gratuitement

Avantages

Discours ultra-réaliste

Déployez la technologie révolutionnaire de Google pour générer du discours aux intonations quasiment humaines. Créée grâce à l'expertise en synthèse vocale de DeepMind, l'API fournit des voix très proches des voix humaines.

Grande sélection de voix

Faites votre choix parmi plus de 380 voix et 50 langues et variantes, incluant l'arabe, l'espagnol, l'hindi, le mandarin, le russe et plus encore. Sélectionnez la voix qui convient le mieux à votre utilisateur et votre application.

Voix unique

Différenciez-vous des autres organisations : au lieu d'utiliser une voix générique, créez une voix unique qui incarne votre marque à tous les points de contact avec les clients.

Démonstration

Essayez Text-to-Speech

Saisissez le texte de votre choix, choisissez une langue, puis cliquez sur "Speak It" (Synthétiser) pour l'entendre.

Principales fonctionnalités

Voix Neural2

Internationalisez votre expérience vocale avec les voix prêtes à l'emploi optimisées grâce aux dernières recherches sur la voix personnalisée.

Voix Studio (preview)

Impressionnez vos auditeurs avec une narration de contenu professionnelle enregistrée dans un environnement de qualité studio. Pensez à mettre votre casque !

Voix personnalisée

Entraînez un modèle de voix personnalisée à l'aide de vos propres enregistrements audio afin de créer une voix unique et plus naturelle pour votre organisation. Vous pouvez définir et choisir le profil vocal idéal pour votre organisation et vous adapter rapidement aux évolutions des besoins en termes de voix, sans avoir à enregistrer de nouvelles expressions.

Réglage de la voix

Personnalisez la hauteur de la voix sélectionnée, jusqu'à 20 demi-tons en plus ou en moins par rapport au paramètre par défaut. Ajustez la vitesse d'élocution pour obtenir un discours quatre fois plus lent ou plus rapide que la normale.

Texte et compatibilité SSML

Personnalisez votre discours en ajoutant des balises SSML. Elles vous permettent d'insérer des pauses, des nombres, des dates et heures, ainsi que des instructions de prononciation.

Voir toutes les fonctionnalités

Nouveautés

Inscrivez-vous à la newsletter Google Cloud pour recevoir des informations sur les produits et événements, des offres spéciales et bien plus encore.

Personnes disant "bonjour" dans différentes langues

Blog post

L'API Cloud Text-to-Speech de Google intègre désormais les voix personnaliséesConsulter le blog

Personne tenant un smartphone sur lequel est affiché un livre audio créé à l'aide de Text-to-Speech

Video

Convertir des PDF en livres audio grâce au machine learningRegarder la vidéo

Dessin illustrant une conversation basée sur l'IA avec Contact Center AI

Blog post

L'IA conversationnelle améliore l'expérience clientConsulter le blog

Femme en train de parler au téléphone qu'elle tient devant elle

Video

Améliorer l'accessibilité au téléphone grâce à Speech-to-Text et Text-to-SpeechRegarder la vidéo

Mention "Langues et voix de Cloud Text-to-Speech" au-dessus d'environ 25 drapeaux de pays du monde

Blog post

Nouvelles langues et voix pour Text-to-SpeechConsulter le blog

Documentation

Google Cloud Basics

Concepts de base de Text-to-Speech

Ce guide présente les concepts fondamentaux de l'utilisation de l'API Text-to-Speech.

Quickstart

Démarrage rapide : Utiliser la ligne de commande

Configurez votre projet Google Cloud, obtenez les autorisations requises et demandez à Text-to-Speech de créer des contenus audio à partir de texte.

Google Cloud Basics

Voix et langues compatibles

Consultez les guides et ressources associés à ce produit.

Google Cloud Basics

Présentation de la voix personnalisée (version bêta)

Découvrez comment créer une voix unique et plus naturelle grâce à la fonctionnalité de voix personnalisée basée sur vos propres enregistrements audio de qualité studio.

Tutorial

WaveNet et autres voix synthétiques

Découvrez les différentes voix synthétiques disponibles dans Text-to-Speech, y compris les voix WaveNet haut de gamme.

Tutorial

Énoncer des adresses avec SSML

Ce tutoriel explique comment utiliser le langage de balisage de synthèse vocale (SSML) pour énoncer un fichier texte d'adresses.

Vous ne trouvez pas ce que vous cherchez ?

Afficher toute la documentation produit

Notes de version

Découvrez le contenu des dernières mises à jour de Text-to-Speech.

Cas d'utilisation

Les bots vocaux dans les centres d'appels

Proposez une meilleure expérience vocale au sein de votre service client grâce aux bots vocaux sur Dialogflow : générez du discours de manière dynamique plutôt que de diffuser des messages audio statiques pré-enregistrés. Boostez l'engagement grâce à des voix synthétiques de haute qualité donnant aux interlocuteurs un sentiment de familiarité et de personnalisation.

Cas d'utilisation

La génération de voix sur les appareils

Établissez une communication naturelle avec vos utilisateurs en utilisant des voix humaines pour lire du texte sur vos appareils. Développez une interface vocale de bout en bout avec Speech-to-Text et Natural Language, et améliorez l'expérience utilisateur grâce à des interactions faciles et engageantes.

Cas d'utilisation

EPG accessibles (guides des programmes électroniques)

Permettez aux EPG de lire du texte à voix haute en toute simplicité, afin d'améliorer l'expérience utilisateur et de répondre aux exigences d'accessibilité de vos services et applications. Découvrez comment utiliser les EPG.

Implémentez la fonctionnalité de synthèse vocale dans les EPG en toute simplicité, afin d'améliorer l'expérience utilisateur et de répondre aux exigences d'accessibilité de vos services et applications.

Architecture de référence qui montre comment l'API Text-to-Speech permet de créer des EPG accessibles

Afficher tous les guides techniques

Toutes les fonctionnalités

Voix personnalisée	Entraînez un modèle de synthèse vocale personnalisé à l'aide de vos propres enregistrements audio afin de créer une voix unique et plus naturelle pour votre organisation. Vous pouvez définir et choisir le profil vocal idéal pour votre organisation et vous adapter rapidement aux évolutions des besoins en termes de voix, sans avoir à enregistrer de nouvelles expressions. En savoir plus
Synthèse audio longue	Synthétisez de manière asynchrone jusqu'à 1 million d'octets d'entrée avec la synthèse audio longue.
Sélection de voix et de langues	Faites votre choix parmi une large sélection de plus de 220 voix dans 40 langues et variantes, enrichie au fil du temps.
Voix WaveNet	Profitez de plus de 90 voix WaveNet basées sur les avancées révolutionnaires de DeepMind et générez un discours qui se rapproche considérablement des performances humaines.
Texte et compatibilité SSML	Personnalisez votre discours en ajoutant des balises SSML. Elles vous permettent d'insérer des pauses, des nombres, des dates et heures, ainsi que des instructions de prononciation.
Réglage de la hauteur de voix	Personnalisez la hauteur de la voix sélectionnée, jusqu'à 20 demi-tons en plus ou en moins par rapport au paramètre par défaut.
Réglage de la vitesse d'élocution	Ajustez la vitesse d'élocution pour obtenir un discours quatre fois plus lent ou plus rapide que la normale.
Contrôle du volume	Augmentez le volume de la sortie (jusqu'à 16 dB en plus) ou réduisez-le (jusqu'à 96 dB en moins).
Intégration des API REST et gRPC	Profitez de la compatibilité avec tous les appareils et applications qui peuvent envoyer des requêtes REST ou gRPC, tels que les téléphones, les ordinateurs, les tablettes et les appareils IoT (voitures, téléviseurs, enceintes, etc.).
Flexibilité du format audio	Convertissez du texte aux formats audio MP3, Linear16, Ogg Opus, etc.
Profils audio	Optimisez la lecture pour le type de haut-parleur diffusant l'audio (casque ou ligne téléphonique, par exemple).

Tarification

Tarifs

L'utilisation de Text-to-Speech est facturée mensuellement en fonction du nombre de caractères envoyés au service pour synthèse audio. Pour les voix WaveNet, le premier million de caractères est gratuit chaque mois. Pour les voix standards (autres que WaveNet), les quatre premiers millions de caractères sont gratuits chaque mois. Après la première tranche gratuite, Text-to-Speech est facturé par tranche d'un million de caractères texte traités.

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des codes SKU de Google Cloud s'appliquent.

Afficher le détail des tarifs

Passez à l'étape suivante

Les nouveaux clients bénéficient de 300 $ de crédits pour essayer Text-to-Speech et d'autres produits Google Cloud.

Profiter d'un essai gratuit de Text-to-Speech

Vous avez besoin d'aide pour démarrer ?
Contacter le service commercial
Faites appel à un partenaire de confiance
Trouvez un partenaire
Poursuivez vos recherches
Voir tous les produits

IA Text-to-Speech

Discours ultra-réaliste

Grande sélection de voix

Voix unique

Essayez Text-to-Speech

Principales fonctionnalités

Voix Neural2

Voix Studio (preview)

Voix personnalisée

Réglage de la voix

Texte et compatibilité SSML

Nouveautés

Documentation

Concepts de base de Text-to-Speech

Démarrage rapide : Utiliser la ligne de commande

Voix et langues compatibles

Présentation de la voix personnalisée (version bêta)

WaveNet et autres voix synthétiques

Énoncer des adresses avec SSML

Vous ne trouvez pas ce que vous cherchez ?

Explorez plus de documents

Cas d'utilisation

Les bots vocaux dans les centres d'appels

La génération de voix sur les appareils

EPG accessibles (guides des programmes électroniques)

Toutes les fonctionnalités

Tarifs

Passez à l'étape suivante

Vous avez besoin d'aide pour démarrer ?

Faites appel à un partenaire de confiance

Poursuivez vos recherches