Cloud Text-to-Speech
Synthèse vocale basée sur le machine learning
Profiter d'un essai gratuit Consulter la documentationSynthèse vocale haute fidélité
Google Cloud Text-to-Speech permet de synthétiser du texte dans plus de 100 voix différentes et plus de 20 langues et variantes. L'outil applique les avancées révolutionnaires dans la synthèse vocale (WaveNet) et les puissants réseaux de neurones de Google afin d'offrir la plus haute fidélité possible. Cette API facile à utiliser permet de créer des interactions réalistes avec vos utilisateurs pour transformer le service client, l'interaction avec les appareils et d'autres applications.
Utilisez la synthèse vocale dès maintenant
Saisissez le texte de votre choix, choisissez une langue, puis cliquez sur "Speak It" (Synthétiser) pour écouter l'audio.
Solution basée sur le machine learning de Google
Cloud Text-to-Speech utilise des algorithmes de deep learning sophistiqués. Cette technologie basée sur les réseaux de neurones permet de synthétiser du texte en différentes voix et langues. Nos réseaux de neurones ont été conçus grâce à l'expérience de Google en matière de synthèse vocale.
Plus de 100 voix disponibles
Google Cloud Text-to-Speech offre une sélection de plus de 100 voix dans plus de 20 langues et variantes, permettant ainsi aux développeurs de choisir la voix la plus adaptée à leur application.
Accès exclusif à la technologie WaveNet
DeepMind a réalisé des avancées révolutionnaires sur les modèles de machine learning, qui sont désormais capables d'imiter des voix humaines. Grâce à un rendu plus naturel, l'écart avec les performances humaines a été réduit de plus de 70 %. Cloud Text-to-Speech offre un accès exclusif à plus de 50 voix WaveNet et continuera à en ajouter au fil du temps.
Intégration facile aux applications et appareils existants
Cloud Text-to-Speech est compatible avec tous les appareils et applications qui peuvent envoyer des requêtes REST ou gRPC, tels que les téléphones, les ordinateurs, les tablettes et les appareils IoT (voitures, téléviseurs, haut-parleurs, etc.).
Compatibilité avec les cas d'utilisation courants
Proposant une API facile à utiliser, Google Cloud Text-to-Speech est une solution flexible capable de créer des expériences naturelles adaptées à de nombreux cas d'utilisation. Elle permet par exemple d'automatiser les centres d'appels, d'offrir des réponses interactives via des appareils IoT et d'effectuer une synthèse vocale diffusée sous forme d'audio.
Fonctionnalités de Cloud Text-to-Speech
- Solution multilingue
- L'API est compatible avec plus de 100 voix et plus de 20 langues et variantes, qui seront enrichies au fil du temps.
- Voix WaveNet
- Bénéficiez d'un accès multilingue exclusif aux voix WaveNet de DeepMind, qui offrent un rendu extrêmement naturel.
- Texte et compatibilité SSML
- Personnalisez votre discours en ajoutant des balises SSML. Elles vous permettent d'intégrer des pauses, des nombres, des dates et heures, et d'autres instructions de prononciation.
- Ajustement de la vitesse d'élocution
- Ajustez la vitesse d'élocution pour obtenir un discours quatre fois plus lent ou plus rapide que la normale.
- Réglage de la hauteur de voix
- Augmentez ou réduisez la hauteur de la voix sélectionnée d'un maximum de 20 demi-tons par rapport au paramètre par défaut.
- Contrôle du volume
- Augmentez le volume de la sortie d'un maximum de 16 dB ou réduisez-le d'un maximum de 96 dB.
- Flexibilité du format audio
- Choisissez le format audio qui vous convient : mp3, Linear16 et Ogg Opus.
- Profils audio
- Optimisez la lecture pour le type de haut-parleur diffusant l'audio (casque ou ligne téléphonique, par exemple).
Tarifs de Cloud Text-to-Speech
Synthèse vocale haute fidélité
Cloud Text-to-Speech est facturé par tranche d'un million de caractères texte traités, après une première tranche d'un million gratuite. Pour plus d'informations, consultez notre grille tarifaire.
| Fonctionnalité | Utilisation mensuelle gratuite | Utilisation payante |
|---|---|---|
| Voix standards (hors WaveNet) | 0 à 4 millions de caractères | 4,00 USD/1 million de caractères |
| Voix WaveNet | 0 à 1 million de caractères | 16,00 USD/1 million de caractères |