Text-to-Speech

Convertissez du texte en discours naturel à l'aide d'une API optimisée par les technologies d'IA de Google.

Profiter d'un essai gratuit
  • action/check_circle_24px Créé avec Sketch.

    Améliorez les interactions avec vos clients grâce à des réponses intelligentes et réalistes.

  • action/check_circle_24pxCréé avec Sketch.

    Boostez l'engagement des utilisateurs grâce à une interface vocale sur vos appareils et applications.

  • action/check_circle_24pxCréé avec Sketch.

    Personnalisez votre communication en fonction des préférences de voix et de langue de vos utilisateurs.

Discours ultra réaliste

Déployez la technologie révolutionnaire de Google pour générer du discours aux intonations quasiment humaines. Créée grâce à l'expertise en synthèse vocale de DeepMind, l'API fournit des voix très proches des voix humaines.

Grande sélection de voix

Faites votre choix parmi plus de 220 voix et 40 langues et variantes. Sélectionnez la voix qui convient le mieux à votre utilisateur et votre application.

Innovation accélérée

Combinez cette API avec le meilleur des technologies Google de traduction et de reconnaissance vocale pour bénéficier de fonctionnalités comme le contenu audio multilingue et les bots vocaux.

Testez Text-to-Speech

Saisissez le texte de votre choix, choisissez une langue, puis cliquez sur "Speak It" (Synthétiser) pour écouter l'audio.

Principales fonctionnalités

Voix WaveNet

Profitez de plus de 90 voix WaveNet basées sur la recherche révolutionnaire de DeepMind et générez du discours réduisant de manière significative le fossé entre IA et performances humaines.

Ajustement vocal

Personnalisez la hauteur de la voix sélectionnée, jusqu'à 20 demi-tons en plus ou en moins par rapport au paramètre par défaut. Ajustez la vitesse d'élocution pour obtenir un discours quatre fois plus lent ou plus rapide que la normale.

Texte et compatibilité SSML

Personnalisez votre discours en ajoutant des balises SSML. Elles vous permettent d'intégrer des pauses, des nombres, des dates et heures, et d'autres instructions de prononciation.

Découvrir toutes les fonctionnalités

Nouveautés

Inscrivez-vous à la newsletter Google Cloud pour recevoir des informations sur les produits et événements, des offres spéciales et bien plus encore.

Documentation

Principes de base de Google Cloud
Concepts de base de Text-to-Speech

Ce guide présente les concepts fondamentaux de l'utilisation de l'API Text-to-Speech.

Guide de démarrage rapide
Démarrage rapide : Utiliser la ligne de commande

Configurez votre projet Google Cloud, obtenez les autorisations requises et demandez à Text-to-Speech de créer des contenus audio à partir de texte.

Principes de base de Google Cloud
Voix et langues compatibles

Découvrez les langues acceptées par Text-to-Speech et écoutez des échantillons des voix disponibles pour chacune d'entre elles.

Tutoriel
WaveNet et autres voix synthétiques

Découvrez les différentes voix synthétiques disponibles dans Text-to-Speech, y compris les voix WaveNet haut de gamme.

Tutoriel
Énoncer des adresses avec SSML

Ce tutoriel explique comment utiliser le langage de balisage de synthèse vocale (SSML) pour énoncer un fichier texte d'adresses.

Cas d'utilisation

Cas d'utilisation
Les bots vocaux dans les centres d'appels

Proposez une meilleure expérience vocale au sein de votre service client : générez du discours de manière dynamique plutôt que de diffuser des messages audio statiques pré-enregistrés. Boostez l'engagement grâce à des voix synthétiques de haute qualité donnant aux interlocuteurs un sentiment de familiarité et de personnalisation.

Architecture de référence pour les bots vocaux dans les centres d'appels
Cas d'utilisation
La génération de voix sur les appareils

Établissez une communication naturelle avec vos utilisateurs sur vos appareils grâce à des voix humaines. Développez une interface vocale de bout en bout avec Speech-to-Text et améliorez l'expérience utilisateur grâce à des interactions faciles et captivantes.

Architecture de référence pour la génération de voix sur les appareils

Toutes les fonctionnalités

Sélection de voix et de langues Faites votre choix parmi une large sélection de plus de 220 voix dans 40 langues et variantes, enrichie au fil du temps.
Voix WaveNet Profitez de plus de 90 voix WaveNet basées sur la recherche révolutionnaire de DeepMind et générez du discours réduisant de manière significative le fossé entre IA et performances humaines.
Texte et compatibilité SSML Personnalisez votre discours en ajoutant des balises SSML. Elles vous permettent d'intégrer des pauses, des nombres, des dates et heures, et d'autres instructions de prononciation.
Réglage de la hauteur de voix Personnalisez la hauteur de la voix sélectionnée, jusqu'à 20 demi-tons en plus ou en moins par rapport au paramètre par défaut.
Ajustement de la vitesse d'élocution Ajustez la vitesse d'élocution pour obtenir un discours quatre fois plus lent ou plus rapide que la normale.
Contrôle du volume Augmentez le volume de la sortie (jusqu'à 16 dB en plus) ou réduisez-le (jusqu'à 96 dB en moins).
Intégration des API REST et gRPC Profitez de la compatibilité avec tous les appareils et applications qui peuvent envoyer des requêtes REST ou gRPC, tels que les téléphones, les ordinateurs, les tablettes et les appareils IoT (voitures, téléviseurs, enceintes, etc.).
Flexibilité du format audio Choisissez le format audio qui vous convient : mp3, Linear16 et Ogg Opus.
Profils audio Optimisez la lecture pour le type de haut-parleur diffusant l'audio (casque ou ligne téléphonique, par exemple).

Tarifs

Text-to-Speech est facturé par tranche d'un million de caractères texte traités, après la première tranche gratuite.

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des codes SKU de Google Cloud s'appliquent.